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MATLAB 加 速 的 方法 ，MATLAB 和 计算 统一 设备 架构 (CUDA) 配置 通 
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CUDA 转换 实例 。 本 书 通过 大 量 的 实例 、 图 示 和 代码 ， 深 入 浅 出 地 引导 该 
者 进入 GPU 的 殿 笛 。 通 过 阅读 本 书 ， 读 者 可 以 轻松 学 习 使 用 GPU 进行 并 
行 处 理 ， 实 现 MATLAB 代码 的 加 速 ， 提 高 工作 效率 ， 从 而 将 更 多 的 时 间 
和 精力 用 于 创造 性 工作 和 其 他 事情 。 
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当前 ， 在 视频 处 理 、 电 磁场 分 析 、 移 动 通 信 、 生 物 信 息 、 人 工 智 能 、 医 疗 诊断 、 流 体力 学 等 诸多 领 
域 ， 密 集 计 算 的 需求 越 来 越 旺 盛 。 台 式 计 算 机 CPU 发 展 远 远 无 法 满足 密集 计算 的 要 求 。 而 采用 大 型 工作 
站 进行 密集 计算 ， 不 仅 成 本 高 晶 ， 应 用 也 十 分 不 便 。 利 用 图 形 处 理 器 (GPU) 中 众多 的 流 处 理 器 ， 实 现 
并 行 计算 ， 可 以 极 大 加 速 程序 运行 ， 是 当前 密集 计算 的 重要 方法 。 

但 要 熟练 使 用 GPU 实现 程序 加 速 ， 需 要 用 户 具 有 较 好 的 编程 能 力 ， 往 往 令 人 望而却步 。 而 
MATLAB 功能 强大 ， 人 简单 易 用 ， 应 用 非常 广泛 。 本 书 聚 焦 于 GPU 和 MATLAB 的 混合 编程 ， 采 用 实例 教 
学 的 方式 ， 并 附 上 大 量 源 代码 ， 全 书 浅 显 易 懂 ， 以 最 小 的 学 习 成 本 ， 让 读者 掌握 GPU 加 速 MATLAB 的 
方法 ， 非 常 适合 作为 GPU AT IEW. 

本 书 第 1 章 介 绍 了 不 使 用 GPU 而 直接 实现 MATLAB 程序 加 速 ， 读 者 得 以 初 寞 程序 加 速 的 基本 方 
法 。 第 2 章 介 绍 了 使 用 GPU 前 需要 的 MATLAB 和 CUDA 配置 方法 ， 并 以 二 维 卷 积 为 例 ， 详 细 介 绍 了 
GPU 实现 程序 加 速 的 流程 。 第 3 草 介 绍 了 多 种 时 间 分 析 工 具 ， 引 领 恋 者 通过 时 间 分 析 ， 发 现 程序 运行 的 
瓶颈 。 第 4 章 介 绍 了 利用 c-mex 进行 CUDA 编程 的 方法 。 第 5 章 和 第 6 章 分 别 介绍 了 MATLAB 并 行 计 
算 工 具 箱 和 CUDA 加 速 函 数 库 的 使 用 方法 。 第 7 章 以 计算 机 图 形 学 中 的 Marching Cubes 算法 为 例 ， 详 细 
介绍 了 GPU 的 开发 方法 。 第 8 章 介绍 了 如 何 将 MATLAB 程序 转换 为 CUDA 程序 。 最 后 这 两 章 是 作者 多 
年 来 实际 开发 的 经 验 之 谈 。 

在 本 书 即 将 出 版 之 际 ， 要 感谢 杨 雪莲 、 刘 玉龙 、 冯 如 、 白 璐 等 几 位 同学 在 本 书 翻译 和 校对 中 所 做 工 
作 。 本 书 还 得 到 了 中 央 高 校 基本 科研 业务 费 项 目 (2014JBZ021)、 轨 道 交 通 控制 与 安全 国家 重点 实验 室 
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存在 不 妥 之 处 ， 和 敬 请 谈 者 不 将 赐教 。 
本 书 提 供 大 量 的 源 代码 ， 有 需要 的 读者 可 登录 机 械 工 业 出 版 社 的 网 站 (www.cempbook.com) ， 免 费 
注册 并 登录 后 进入 “图 书展 示 ” 页 面 ， 搜 索 到 本 书页 面 ， 点 击 “ 相 关 下 载 ” 即 可 下 载 本 书 源 代码。 
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MATLAB 是 广泛 应 用 于 快速 原型 设计 和 算法 开发 的 仿真 工具 ， 功 能 强大 ， 人 简单 易 用 。 许 
多 实验 室 和 研究 机 构 都 迫切 地 和 希望 MATLAB 代 取 能够 更 快 地 运行 ， 以 满足 大 运算 量 项 目的 需 
X. HT MATLAB 采用 向 量 / 和 矩阵 的 数据 形式 ， 适 合 于 并 行 处 理 ， 因 此 采用 图 形 处 理 单元 
(Graphics Processing Unit, GPU) 对 提升 MATLAB 运行 速度 大 有 神 益 。 

本 书 主要 面向 工程 、 科 学 、 技 术 等 专业 领域 ， 需 要 利用 MATLAB 进行 海量 数据 处 理 的 师 生 
和 科研 人 员 。MATLAB 用 户 可 能 来 自 各 个 领域 ， 不 一 定 都 具有 丰富 的 程序 开发 经 验 。 对 于 那些 没 
有 程序 开发 基础 的 读者 ， 利 用 GPU 加 速 MATLAB 需要 对 他 们 的 算法 进行 移植 ， 会 引入 一 些 不 必 
要 的 抵 烦 ， 甚 至 还 需要 设 定 环境 。 本 书面 咎 具 有 一 定 或 较 多 MATLAB 编程 经 验 ， 但 对 C 语言 和 
计算 机 并 行 架 构 不 是 很 了 解 的 读者 ， 以 帮助 读者 将 精力 集中 在 他 们 的 研究 工作 上 ， 从 而 避免 因 使 
用 GPU 和 CUDA mX} MATLAB 程序 而 非 算法 本 身 进行 大 量 调整 。 

作为 入 门 读 物 ， 本 书 从 基础 知识 开始 ， 首 先 介 绍 如 何 设置 MATLAB 运行 CUDA (在 
Windows 和 Mac OSX) ， 创 建 c-mex 和 m 文件 ， 接 着 引导 读者 进入 专业 级 别 的 主题 ， 如 第 三 方 
CUDA 库 。 本 书 还 提供 了 许多 修改 用 户 MATLAB 代码 的 实用 方法 ， 以 更 好 地 利用 GPU 强大 的 
计算 能 

本 书 将 指导 读者 使 用 NVIDIA 的 GPU SETTE MATLAB 的 运行 速度 。NVIDIA 的 CUDA 
作为 一 种 并 行 计 算 架 构 ， 最 早 用 于 计算 机 游戏 设计 ， 但 由 于 其 高 效 的 大 规模 计算 能 力 ， 在 基础 科 
学 和 工程 领域 也 声誉 日 隆 。 通 过 本 书 ， 读 者 无 需 付出 很 多 的 精力 和 时 间 ， 束 可 以 利用 GPU 的 并 行 
处 理 和 丰富 的 CUDA 科学 库 ， 实 现 MATLAB 代码 的 加 速 ， 从 而 提升 读者 的 科研 工作 水 平 。 

本 书 第 5 章 将 使 用 Mathworks 并 行 计 算 工 具 箱 。 虽 然 Mathworks 并 行 计算 工具 箱 是 提升 
MATLAB 速度 的 有 效 工具 ， 但 当前 的 版 本 在 成 为 通用 速度 提升 解决 方案 方面 还 是 存在 一 定 的 局 
限 ， 此 外 该 工具 箱 还 需要 额外 付费 购买 。 特 别 是 ， 由 于 并 行 计算 工具 箱 的 目标 在 于 多 核 、 多 计 
算 机 和 /或 集群 分 布 式 计算 ， 以 及 GPU 处 理 ，GPU 优化 以 提升 用 户 代 码 运算 速度 ， 相 对 而 言 既 
受 限 于 速度 提升 ， 叉 受 限 于 所 支持 的 MATLAB ër. Hat, WRIJF Mathworks 并 行 计算 
工具 箱 ， 束 很 难 最 大 化 利用 丰富 的 CDUA 库 。 本 书 第 5 章 将 介绍 当前 并 行 处 理工 具 箱 的 功能 上 
局 限 。 实 践 证 明 ， 采 用 c-mex 的 GPU 是 普 适 性 地 提升 速度 的 更 好 方法 ， 而 且 在 当前 的 环境 中 能 
够 更 为 灵活 地 使 用 。 

通过 阅读 本 书 ， 读 者 很 快 就 能 体会 到 MATLAB 代码 运行 速度 惊人 的 提升 ， 而 且 通 过 使 用 
开源 CUDA 资源 ， 可 以 更 好 地 进行 科学 研究 。 文 持 Windows 和 Mac 操作 系统 也 是 本 书 的 特点 
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本 章 主要 内 容 为 MATLAB 加 速 的 基本 方法 ， 即 不 使 用 GPU 和 c-mex 的 固有 
方法 。 在 本 章 中 ， 你 可 以 了 解 到 以 下 内 容 : 
e 采用 问 量 化 实现 并 行 处 理 。 
采用 预 分 配 实 现 内 存 有 效 管 理 。 
其 他 加 速 MATLAB 代码 的 有 效 方法 。 
循序 渐进 地 提升 代码 性 能 的 实例 。 
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MATLAB KAKI Al In] te AB EE JJ GN, MA "nei" "BT um 
MATLAB 代码 的 运行 。 同 量化 的 关键 在 于 尽量 减少 for 循环 的 使 用 。 
考 夸 以 下 两 个 具有 相同 功能 的 .m 文件 : 


^ nonVecl.m 5 Vecl.m 
clearall; clearall; 
tic LIC 
A-0:0,000001: 10: A = 0:0.000001:10; 
B =0+0. 000001210 B = 0:0.000001:10; 
Z = zeros(size(A)); Z = zeros(size(A)); 
y=0; y=0; 
for i = 1:10000001 y =sin(Q.5*A) * exp(B.%2)'; 
Z(i)-sin(0.5*A(i)) *exp(B(i)^2); toc 
y=ytZ(i); y 
end 
boc 


y 
左 侧 的 nonVecl.m 文件 使 用 for 循环 求 和 ， 而 右 侧 的 Vecl.m 文件 则 没有 。 


2 GPU 5 MATLAB 混合 编程 


>> nonVecl 
Elapsed time is 0.944395 seconds. 


y = 
—1.3042e + 48 


>> Vecl 
Elapsed time is 0.330786 seconds. 


y 一 
—1.3042e+ 48 


两 个 程序 计算 结果 相同 ， 但 程序 Vecl.m 的 计算 时 间 大 约 为 程序 nonVecl.m 的 
三 分 之 一 。 所 以 为 了 更 好 地 实现 癌 量 化 ， 在 代码 中 应 尽量 使 用 元 素 运 算 或 者 癌 量 / 
KE Mee 


12.1 ”元素 运算 
当 用 于 两 个 矩阵 时 ， 符 号 * 表 示 和 矩阵 乘法 ， 而 符号 .* 则 表示 和 矩阵 中 对 应 元 素 相 
乘 。 例 如 ， 令 x=[1 2 3]，v=[4 5 6]: 
>> k=x.*yv 
k = 
4 10 18 
还 有 许多 其 他 的 运算 也 可 以 按 元 素 进行 : 


>> k=x .AZ 
k = 




















0.2500 0.4000 0.5000 
很 多 函数 也 文 持 按 元 素 运算 : 


>> k= sqrt(x) 
ke 
1.0000 1.4142 1.7321 











>> k= sin(x) 
ke 
0.8415 0.9093 0.1411 


o> k= log) 
D 
0 0.6931 1.0986 


>> k= abs(x) 
k = 
1 2 3 
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其 全 关系 运算 符 也 可 以 按 元 又 运算 : 


>> R=rand(2,3) 

R = 
0.8147 0.1270 0.6324 
0.9058 0.9134 0.0975 


>> (R0.2) & CR «0.9) 


ans = 


eer e, [1237 450; 73.9) 


ans = 


m 
m 
Co 


0 0 0 


其 全 更 复杂 的 组 合 运算 也 可 以 按 元 素 进 行 


>> A=1:10; 
>> B=2:11; 
>> C=0.1:0.1:1; 
>> D=5:14; 





>> M=B:./ CA..* 0D .* sin): 


1.2.2 ”向量 /矩阵 运算 


MATLAB 基于 线性 代数 软件 包 ， 而 在 线性 代数 中 使 用 问 量 /矩阵 运算 能 够 有 效 
HOA for 循环 ， 提 高 运算 速度 。 算 阵 乘法 是 最 常见 的 向 量 /矩阵 运算 ， 该 运 去 算是 
对 每 个 元 素 进 行 乘法 和 加 法 的 组 合 运算 。 

先 考虑 两 个 列 问 量 a 和 bp， 那么 它们 的 点 积 为 1x1 的 矩阵 ， 如 下 所 示 : 























a. b. 
a= e rz b, 
b, 
a-b-a b-|a, a, a a,b, t a,b, t a,b, | 
ERES KA ab 计算 定义 为 ap ， 由 乘法 和 加 法 的 


运算 ， 得 到 1x1 的 和 矩阵， 如 下 : 
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A= 1:10 51x10 matrix A=1:10 Z1x10matrix 
Bs0,1:0,.1:1.0. 1X10 matrix B=0.:1:0.1:1.0 A 1X10 matrix 
fori=1:10 C = A*B'; $A.B! 


=C+A(i) * B(1); 
end 
在 许多 情况 下 ， 以 同 量 运算 的 形式 考虑 矩阵 乘法 是 很 有 效 的 。 例 如 ， 可 以 将 
和 矩阵 一 问 量 乘法 ) 天 4x 分 解 为 x MIND A 各 行 的 点 乘 : 








^h a X 

2| [4€ || %2 

Xi 1 X; 
J; = a; X 


1.2.3 ”实用 技巧 

在 许多 应 用 中 ， 需 要 对 每 个 元 素 设 定 上 边界 和 下 边界 。 为 了 实现 这 一 目的 ， 
通常 使 用 站 和 elseif eH), (AKA DRA sit. Alt, ADEA A EZ min 和 
max STE if All elseif 语 名 设置 元 素 边 界 : 














% ifExample.m 5 nonifExample.m 
clearall; clearall; 

Lic tic 

A = 0:0.000001:10; A = 0:0.000001:10; 
B = 0:0.000001:10; B= 0:0. 000001: 10: 
Z = zeros(size(A)); Z = zeros(size(A)); 
for i =1:10000001 A=max(A, 0.1); 


% max(A, LowerBound) 
% A >= LowerBound 

if(CACI) < 0.1) AC) = 0.1; 

elseif(A(i) > 0.9) A(i) = 0.9; A=min(A, 0.9); 

end 5 minCA, UpperBound) 
% A <= UpperBound 


Z(1) = sin(0.5*A(i)) *exp(B(i)^2); y =sin(0.5*A) * exp(B.%2)'; 


y-yctZ(i); 
toc 
end y 
COC 
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>> ifExample 

Elapsed time is 0.8/8/81 seconds. 

y m 
5,8/59e +47 

>> nonifExample 

Elapsed time is 0.309516 seconds. 

y = 
5.8759e +47 





同样 地 ， 如 果 需 要 查找 和 和 蔡 换 某 些 元 素 的 值 ， 可 以 用 find KAAR 证 和 elseif 





来 保持 问 量 化 : 
% 1fExample2.m 
clear all; 
cic 
A = 0:0.000001:10; 
B = 0:0.000001:10; 


Z = zeros(size(A)); 
y =Q; 


for i = 1:10000001 


if(A(1) == 0.5) A(1) 20; 
end 


Z(i)2sin(0.5*AC(i)) * exp(B()^2); 
y=y+Z(i); 


end 








5 nonifExample2.m 
clearall; 

tic 

A = 0:0.000001:10; 
B = 0:0.000001:10; 


Z = zeros(size(A)); 
y=0; 


5 Vector Ais compared with scalar 
50.5 


A(find(A == 0.5)) = 0; 


y =sin(0.5*A) * exp(B.%2)'; 


toc 
y 


将 回 量 4 中 的 元 素 与 标量 0.5 进行 比较 ， 返 回 一 个 与 同 量 4 相同 大 小 的 向 
量 ，4 中 元 素 为 0.5 的 位 置 设 为 0。find 函数 能 够 给 出 匹配 位 置 的 索引 ， 并 符 换 初 


始 值 。 
LA TR 











由 于 每 次 调整 数组 的 大 小 部 涉及 内 存 的 释放 或 分 配 ， 以 及 数值 的 复制 ， 极 为 
耗 如 时间。 上 押 以 通过 为 所 需 数组 预 分 配 内 存 ， 能 够 狭 得 相当 显 者 的 加 速 。 


% preAlloc.m 
5 Resizing Array 
ric 


x=8; 
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toc 

^ Pre-allocation 
Lic 
y=zeros(4,1); 
y(1)=8; 
y(2)210; 
vio) = i; 

y(4) =20; 


toc 

>> preAlloc 

Elapsed time is 0.000032 seconds. 
Elapsed time is 0.000014 seconds. 


在 上 面 的 例子 中 ， 多 次 调整 了 数组 x BW AV. TR E E AC Al N 
值 ， 而 数组 y 则 通过 zeros(4, 1) 进行 了 初始 化 。 如 末 在 运算 前 不 知道 矩阵 的 大 小 ， 
可 以 预先 设置 一 个 足够 大 的 数组 来 存储 数据 ， 这 样 使 用 该 数组 进行 运算 时 如 不 再 
要 进行 内 存 的 重 狐 分 配 了 。 





1.4 for-loop 





许多 情况 下 ， 不 可 避免 地 需要 使 用 forloop。 作 为 Fortran 的 演进 ，MATLAB 
按 列 顺序 存储 定 阵 ， 即 第 一 列 的 元 素 按 顺 序 存储 在 一 起 ， 然 后 是 第 二 列 的 元 素 ， 
以 此 关 推 。 由 于 内 存 为 线性 结构 ， 系 统 能 够 缓存 附近 元 素 的 值 ， 所 以 对 窃 阵 按 列 
仍 套 循环 更 有 利于 程序 运行 。 





% row first.m ^ col first.m 
clearall; clearall; 
A=rand(300,300,40,40); A=rand(300,300,40,40); 
B= zeros(300,300,40,40); B= zeros(300,300,40,40); 
I tic 
for 1=1:300 for j21:300 
for j=1:300 for i=1:300 
D(1,J352,:) 2,5 ACs 25295 Bly diet wt m2,59* (1,1, a 
end end 
end end 


toc toc 
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>> row first 
Elapsed time is 9.972601 seconds. 
>= C0 first 
Elapsed time is 7.140390 seconds. 


EI, it for-loop F i 和 jj 的 简单 对 换 ，col first.m 的 运行 速度 
H row first.m. 快 大 约 30%. BrULTA ERI LD EAE EY, XETI LIA SEIS 5 
能 够 获得 更 蜗 的 速度 增益 。 





Lä 考虑 黎 玩 矩阵 形式 


对 于 稀 惑 矩阵 《大 部 分 元 素 是 零 的 大 规模 怎 阵 ) 的 处 理 ， 使 用 MATLAB 中 的 
“Pei KE ME IB” ee PAR ASS © ESP HE ANR hes FF fig SES 
ze, POEM Pri A re Or, wm Ae PAA SUR, a ARE h E 
ER 

Ei) SE CHE SEE TY f] Sy TUB : 


>> 1=[536] 4used for row index 























>> j =[163]% used for column index 
>> value=[0.1 2.3 3.1] %used for values to fill in 
>> s = sparse (1,jJ,value) 2 generate sparse matrix 


S = 

(5,1) 0.1900 
(5,3) 2.1000 
(3,0) 2.3000 


>> full = full(s) 2 convert the sparse matrix to full matrix 


full = 
0 0 0 0 0 0 
0 0 0 0 0 0 
0 0 0 0 U 2.3000 
0 0 0 0 0 0 
0.1000 0 0 0 0 0 
0 0 3.1000 0 0 0 


或 者 简单 地 使 用 内 置 指令 sparse 14 AED KO ON PAE: 


>> SP = sparse(full) 


SP = 
(5,1) 0.1000 
05,3) 3.1000 
(30) 2.3000 
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所 有 MATLAB 和 内置 运 算 者 适用 于 黎 蕊 算 阵 形式 ， 无 需 进 行 任何 修改 ， 而 且 称 


LAB PER TEES A BEBE X. 


Mi ALPE JE ALB 1T 2305€ EH EY PE V XE, BIKE MEAS ur ek, ABE 
IBS TESTOR WR MEL A its JA TE ERRARE OR AN ORC 








速度 的 提升 和 内 存 的 节省 。 
5 DenseSparse.m 
5 Dense matrix 


A = rand (5000,2000); 


b = rand (5000,1); 
LIC 

X—AÀNb ; 
toc 


% Convert to sparse form in MATLAB 


sp. denseA = sparse(A); 
tic 

X=sp_denseA\b ; 
LOC 


>> denseSparse 
Elapsed time is 5.846979 seconds. 


Elapsed time is 41.050271 seconds. 


>> RealSparse 
Elapsed time is 5.879175 seconds. 
Elapsed time is 3.798073 seconds. 





5 RealSparse.m 

5 Sparse matrix 

sp_A2 = sprand(5000, 2000, 0.2); 
b2 — rand (5000,1); 


5 Convert sparse matrix to full 
% matrix 
full. A2 = full(sp A2); 
Lic 
y=full_A2\b ; 
toc 
tic 
y=sp_A2\b2 ; 
Loc 


在 例子 DenseSparse.m F, Greet CA:5000x50000. Fee CA Hii KE ME 
(sp denseA )， 稀 玻 窃 阵 形式 的 运算 比 密集 矩阵 花费 了 更 多 时 间 。 然 而 在 例子 





RealSparse.m 中 ， 稀 芷 窍 阵 形 式 的 速度 提高 了 很 多 。 函 数 sprand(5000, 2000, 0.2) 用 
于 生成 5000x2000 DU Gr, 98 — AXE 0.2 意味 着 ， 在 生成 的 矩阵 中 大 约 











20%IN uz ASE are, Hub 80% 的 元 和 聚 为 去 元 条 。 在 窍 阵 运 算 中 ， 即 使 有 20% 
的 非 零 元 素 ， 稀 玖 矩阵 也 能 够 获得 非常 大 的 速度 提升 。 

观察 每 个 矩阵 所 需 的 内 存 大 小 《如 下 所 示 )， 称 芷 形式 的 黎 臣 矩阵 〈sp_A2 ) 
ÆRE C8OMB) 需要 更 少 的 内 存 〈 大 约 29MB)。 然 而 稀 芷 形式 的 密集 窍 阵 《〈sp 
sp_denseA) 比 全 窍 阵 (80MB) 需要 更 多 的 内 存 〈 大 约 160MB), KEK NRE 
阵 形 式 需 要 更 多 的 内 存 来 存储 算 阵 的 索引 信息 。 
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>> whos('A', 'sp denseA', 'full A2','sp A2') 


Name Size Bytes Class Attributes 
A 5000 x 2000 80000000 double 

full. A2 5000 x 2000 80000000 double 

sp A2 5000 x 2000 29016504 double sparse 

sp denseA 5000 x 2000 160016008 double sparse 


16 ”其 他 技巧 


1.6.1 尽量 减少 循环 中 的 文件 谈 / 写 

当 调 用 的 疯 数 涉及 文件 证 /号 时 ， 是 十 分 花费 时 间 的 ， 因 此 ， 需 要 尽量 减 
少 ， 甚 至 避免 调用 函数 ， 特 别 是 在 循环 中 。 处 理 文件 谈 / 写 最 好 的 方式 是 在 循 
环 开 始 前 读 取 文件 ， 并 将 数据 存储 于 变量 中 ; 然后 在 循环 中 使 用 这 些 存 储 的 
变量 ;在 退出 循环 后 ， 将 结果 重新 写 入 文件 。 

虽然 避免 在 循环 中 进行 文件 读 / 写 看 起 来 十 分 浅显 ， 但 是 当 在 多 个 文件 中 
使 用 多 个 函数 时 ， 文 件 恋 / 写 会 不 经 意 间 驻 留 在 深层 的 内 循环 中 。 为 了 检测 这 
一 无 心 之 失 ， 推 荐 使 用 分 析 需 来 分 析 代 但 中 的 哪 一 部 分 显 车 影响 了 总 的 处 理 
HH]. 78 3 章 将 介绍 分 析 峰 的 使 用 。 


1.6.2 ”尽量 减少 动态 改变 路 人 答 和 改变 变量 类 型 

与 文件 读 / 写 相同 ， 设 置 路 径 也 十 分 花费 时 间 ， 应 尽量 减少 使 用 。 同 样 地 ， 建 
议 在 循环 外 设置 路 径 。 改 变 变 量 、 和 疝 量 、 秆 阵 的 类 型 也 十 分 花费 时 间 ， 也 应 尽量 
减少 ， 尤 其 是 在 循环 中 。 


16.3 在 代码 易 读 性 和 优化 间 保 持平 衡 

尽管 本 书 一 直 在 强调 代码 的 优化 ， 但 是 代码 的 可 维护 性 也 是 算法 设计 /原型 中 
的 重要 因素 。 因 此 ， 过 于 注重 代码 优化 ， 而 牺牲 代码 可 读 性 ， 并 不 是 一 个 好 主 
意 。 应 该 力争 在 代码 易 读 性 和 优化 间 保 持平 衡 ， 这 样 才能 从 调试 时 间 的 节省 中 获 
得 更 大 益处 ， 从 而 将 更 多 的 时 间 用 于 创造 性 算法 和 其 他 事情 。 


1.7 实例 


在 运行 myDisplay.m 时 ， 能 看 到 如 图 1.1 所 示 的 结果 。 此 例 的 目的 是 在 图 1.1b 的 
12 个 目标 中 ， 找 出 一 本 黑色 的 书 ( 左 图 为 样板 图 像 )。 样 板 图 像 和 目标 图 像 均 为 彩 
色 ， 均 为 三 个 维度 Cx, y, Bf). REA 11b 中 目标 图 像 的 原始 大 小 为 
1536x2048x3, K| 1.1a 样板 图 像 的 大 小 为 463x463x3， 但 出 于 演示 的 目的 ， 图 1.1b 图 
像 的 每 个 目标 都 已 经 被 挑 出 ， 且 具有 与 样板 图 像 相同 的 大 小 《〈 见 图 1.2)， 以 减少 不 必 
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要 的 细节 。 并 且 12 个 目标 图 像 均 以 “展开 ”形式 储存 在 compareImageVector.mat 中 的 
大 矩阵 vy 中 ， 即 每 个 目标 图 像 大 小 为 463x463x3 的 矩阵 被 展开 为 大 小 为 1x643107 的 
行 癌 量 ， 所 以 对 于 12 个 目标 ， 和 窍 阵 > 共 有 12 行 〈《 和 矩阵 大 小 为 12x643107)。 











样板 图 像 目标 

200 

400 
600 600 
800 800 
1000 1000 
1200 1200 
1400 1400 

500 T 1500 2000 500 E 1500 2000 
a 


1.1 使 用 样板 图 像 进行 目标 检测 实例 


图 1.1 中 ， 将 a 图 中 黑色 的 书 作为 样板 图 像 检 测 a 图 的 12 个 目标 。 注 意 b 图 
中 时 色 的 书 有 轻微 旋 较 ， 而 且 育 景 中 有 阴影 存在 














30 30 
100 100 
150 150 
200 200 
250 250 
300 300 
350 350 
400 400 
450 450 
50 100 150 200 250 300 350 400 450 50 100 150 200 250 300 350 400 450 





50 100 150 200 250 300 350 400 450 50 100 150 200 250 300 350 400 450 


12 ”为 简便 起 见 ， 每 个 目标 都 被 挑 出 ， 且 具有 与 样板 图 像 相 同 的 大 小 








第 1 章 不 使 用 GPU 实现 MATLAB 加 速 11 


^ compareVec LoopNaive.m 
load('compareImageVector.mat'); 
[sizeX, sizeY, sizeZ] = size(template); 
LIC 

mean v = mean(v')'; 

std_v = std(v')'; 


mean_template = mean(template_vec); 
std template = std(template vec); 
for i21:12 

y(i,1)20; 

Tor j21:size(v,2) 


normalized v(i,j) = (v(i,j) - mean v(1)); 

normalized template(j,1) = template vec(j,1) - mean template; 

y(i) = y(1) + (normalized v(i,j) * normalized template(j,1))/ ... 
(std v(i,l)*std template); 


end 
end 


toc 
y 


此 m 文件 可 计算 用 于 比较 各 目标 图 像 与 样板 图 像 的 归 一 化 互相 关 值 ， 计 算 方 
法 如 下 : 





y IG») -1 || TG »)- T | 


boy OjOT 
XB. T, yy) 是 样板 图 像 中 每 个 像素 的 值 ，7 表示 样板 图 像 的 平均 像素 值 ，o; 是 
PREZE; IG yy) 是 进行 比较 的 目标 图 像 中 的 各 个 像素 值 。 所 以 ， 当 计算 出 的 归 一 化 
互相 关 值 越 大 时 ， 意 味 看 相互 比较 的 两 个 图 像 越 相 似 。 本 例 中 ， 我 们 尝试 找 出 归 
一 化 相关 值 最 大 的 目标 ， 即 认为 它 与 样板 图 像 最 相似 。 

compareVec LoopNaive.m 运行 结果 如 下 : 











>> compareVec LoopNaive 
Elapsed time is 65.008446 seconds. 


y = 
1.0e+05* 


0.2002 


bech 
r3 
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,e613 
+9709 
„0799 
.6650 
.0070 
./570 
POSE 
2281 
.0278 
.8071 
-D.5erl 


由 结果 可 知 ， 第 10 行 的 归 一 化 互相 关 值 最 大 (5.0278 X 10), IWER 1.1 中 


| 
O10 CO bä CG non no rn 


Ro 





的 第 10 AHER. Re ERRER d HERA At COLA 1.3)， 但 是 仍 需要 进行 
一 些 优 化 来 提高 代码 的 速度 。 在 阅读 下 列 代 码 之 前 ， 请 先 目 行 试 着 找 出 
compareVec LoopNaive.m 中 能 够 改进 的 部 分 。 

目标 


200 


400 


600 


800 


1000 


1200 


1400 





500 1000 1500 2000 








13. 采用 归 一 化 互相 关 进 行 的 各 目标 图 像 与 样板 图 像 的 比较 结果 。 
具有 最 大 归 一 化 互相 关 值 的 第 10 个 目标 被 选 出 
接 下 来 仔细 观察 上 述 代码 。 你 还 记得 预 分 配 能 够 加 速 MATLAB 吗 ? 在 使 用 变 
量 y. normalized template 和 normalized v 前 ， 先 通过 zero) ek 25 ETT VJ FF oy Ro 
CJ, compareVec Loop.m). 











5 compareVec Loop.m 
load('compareImageVector.mat'); 


[sizeX, sizeY, sizeZ] = size(template); 


v= zeros (1Z.J. double: 


ETE 
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mean. v = mean(v')'; 
std ve std(v')' 


mean template = mean(template vec); 
std template — std(template vec); 


normalized template = zeros(size(template vec)); 
normalized v = zeros(size(v)); 


for i21:12 
Tor j=1:size(v,2) 


normalized v(i,j) = (v(i,j) - mean v(i)); 

normalized template(j,1) = template vec(j,1) - mean template; 

y(i) = y(i) + (normalized v(i,j) * normalized template(j,1))/ ... 
(std, v(i,l1)*std template); 


end 
end 


LOC 
y 


结果 如 下 : 


>> compareVec Loop 
Elapsed time is 58.102506 seconds. 


1.0e+05* 


.2002 
513 
.9 755 
,0793 
.6650 
.0070 
29/0 
sf O32 
-3291 
.0278 
.8071 
29271 


TL fí] LN AERA A, SEAN Ta NGA AT IN TA] (从 65s 减少 到 
58s)。 下 面 再 调整 循环 中 的 第 一 步 运 算 。 
由 于 normalized v(i, j)=(v(i, j)-mean_v(i)) 是 各 行 徐 单 的 减法 运算 ， 所 以 可 以 通 
过 问 量 运算 将 这 行 运算 放 到 循环 外 : 


| 
A UO CO CH Pä Ch bä rn Pä m c 


| 
© 














mean matrix = mean v(:,ones(1,size(v,2))); 
normalized v =v — mean matrix; 
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这 里 ， 通 过 重复 mean v 使 得 mean matirx 具有 与 矩阵 v 相同 的 大 小 。 通 过 这 
个 向 单 的 改变 ， 能 够 减少 运行 时 间 。 

^ compareVec LoopImprove.m 

load('compareImageVector.mat'); 


[sizeX, sizeY, sizeZ] = size(template); 
y = zeros(12,1,'double'); 


tic 


mean. v = mean(v')'; 
std ve std(v')'; 


mean template = mean(template vec); 
std template = std(template vec); 


normalized template = zeros(size(template vec)); 
normalized vs zeros(size(v)); 


mean matrix = mean v(:,ones(1,size(v,2))); 
normalized v =v - mean matrix; 


torte 
for j21:size(v,2) 


normalized template(j,1) = template vec(j,1) - mean template; 
y(i) = y(i) + (normalized v(i,j) * normalized template(j,1))/ ... 
(std v(i,l)*std template); 


end 
end 


toc 

y 

>> compareVec LoopImprove 
Elapsed time is 51.289607 seconds. 


y= 
1.0e+05* 


.2002 
Ee 
9700 
607193 
.6650 
.0070 
CH 
19332 
0 91 
.0278 
.8071 
=0.527.1 


| 
mo ao ho O n5 Pa YM E © 


Ro 





第 1 章 不 使 用 GPU 实现 MATLAB 加 速 15 

















下 面 继续 优化 代码 。 可 以 使 用 元 素 运 算 和 问 量 /矩阵 运算 来 避免 使 用 for-loop。 
对 应 元 紊 运算 ， 可 以 进行 如 下 修改 : 


mean matrix = mean. v(:,ones(1,size(v,2))); 
normalized v = v - mean matrix; 


mean template = mean(template vec); 
std template = std(template vec); 
normalized template = template vec - mean template; 


这 些 语句 能 够 有 效 地 符 代 for-loop. 
ME SRH nl Sr Dr E, GEN ES IT for-loop: 


y = normalized v * normalized template; 


最 终 的 癌 量 化 m-code 如 下 : 


A compareVec.m 








load('comparelImageVector.mat'); 


[sizeX, sizeY, sizeZ] = size(template); 
y = zeros(12,1,'double'); 


tic 


mean. v = mean(v')' 
std vestdiv')"': 


mean matrix = mean v(:,ones(1,size(v,2))); 
normalized. v = v - mean matrix; 


mean template = mean(template vec); 
std template = std(template vec); 
normalized template = template vec - mean template; 


y = normalized v * normalized template; 
y ^ y./(std v*std template); 


toc 
y 


运行 结果 如 下 : 


>> compareVec 
Elapsed time is 0.412896 seconds. 
y 一 

1.0e+05* 


.2002 
203 
EE 
:07193 
.6650 


PO PO MHF CH 
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—0.0070 
"NEA NI 
0.7832 
0.3291 
5.0278 
2.8071 

-0.5271 


BARAA, TUERI EUER P CUR SA te ESAT A HE TT TRU BO EI Je RE 
要 快 得 多 在 不 损失 准确 度 的 情况 下 ， 运 行 时 间 由 65s 降 为 0.41s). 





第 2 和 革 MATLAB Al CUDA 配置 


2.1 本 章 学 习 目 标 


采用 C/C++ 语言 编写 的 MATLAB 函数 称 为 c-mex 文件 。c-mex 文件 是 在 
MATLAB 中 使 用 CUDA 和 GPU 的 基本 出 发 点 。 在 MATLAB 会 话 中 ， 这 些 c-mex 
PRC AS INA RAL. BG A CLAY c-mex 文件 有 很 多 原因 : 

1) Æ MATLAB 中 重用 C/CH RŽ. 

2) 提高 运行 速度 。 

3) 无 限 的 自 定义 扩展 。 

尽管 Mathworks 的 并 行 计算 工具 包 和 其 他 第 三 方 CPU 工具 包 提 供 了 
CUDA 接口 ， 但 是 要 充分 利用 CUDA 和 GPU 仍 存在 很 多 约束 和 限制 。 而 使 用 
c-mex 文件 这 种 通用 方法 ， 能 够 提供 无 止境 的 目 定 义 扩 展 ， 并 且 在 使 用 
NVIDIA 和 其 他 公司 提供 的 CUDA 库 时 十 分 灵活 。 在 本 章 中 ， 可 以 了 解 到 以 

e c-mex 编程 的 MAILAB 配置 。 

e 编写 最 简单 的 c-mex 实例 一 一 “Hello，c-mex”。 

e MATLAB 中 的 CUDA 配置 。 

e H] MATLAB 编写 CUDA AKH. 




















2.2 配置 MATLAB 进行 -mex 编程 


2.2.1 KARK 

MATLAB Executable (MEX) 用 于 在 MATLAB 环境 中 直接 使 用 C/C++ 和 
FORTRAN 代码 ， 以 实现 更 高 的 运算 速度 和 避免 应 用 瓶颈 。 我 们 将 C/C++ MEX 
PRY c-mex， 并 且 本 书 为 了 达到 有 效 利 用 GPU 设备 的 目的 ， 上 只 关注 c-mex. A 
于 c-mex 需要 创建 C/C++ 可 执行 代码 ， 而 CUDA 需要 针对 人 硬件 CNVIDIA 
GPU) 的 代码 ， 所 以 除了 标准 的 MATLAB 安装 ， 还 需要 额外 的 安装 步骤 。 首 
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Ac Rr fx C/C++ Fa PE a EIR, PR JET CUDA WER- 

1l. C/C++ 编译 器 

当 进行 c-mex 编程 时 ，MATLAB 利用 安 疙 在 操作 系统 中 的 C/CH PE as GI RE 
MATLAB 可 调用 的 三 进 制 文件 。 所 以 你 应 该 知道 操作 系统 中 哪个 编译 占 可 用 ， 以 
及 编译 器 的 安装 位 置 ， 并 且 确 保 MATLAB 版 本 支持 操作 系统 中 的 编译 器 。 为 此 ， 
你 可 能 需要 浏览 Mathworks 网 站 ， 检 查 安装 MATLAB 与 编译 器 版 本 的 兼容 性 ， 
bx) LIE http://www.mathworks.com/support/compilers/R2013a /index.html. 。 通 第 在 
Windows 中 ，Microsoft Visual C++ 编译 器 cl.exe 安装 在 以 下 位 置 3: 

e C:\Program Files (x86)Microsoft Visual Studio x.0\VC\bin 64 位 操作 系统 

e C:\Program Files\Microsoft Visual Studio x.0\VC\bin 32 位 操作 系统 

在 Mac OS X 和 Linux 发 行 套 件 中 ，MATLAB xf gcc/g++ MIZ, 
gcc/g--- 编译 器 的 安装 位 置 由 Linux 发 行 套 件 决 定 ， 一 般 安 闭 在 以 下 位 置 : 

e /Developer/usr/bin Mac OS X 

e /usr/local/bin Linux 发 行 版 

你 二 要 核实 是 否 已 正确 安装 编 详 蔓 ， 如 果 编 详 占 安 疙 在 其 他 位 置 ， 请 记 下 安 
装 位 置 。 

2. NVIDIA CUDA 编译 器 nvcc 

要 编译 CUDA 代码 ， 你 需要 从 NVIDIA 网 站 下 载 并 安装 CUDA 工具 包 。 这 个 工 
具 包 可 以 免费 获得 。CUDA 工具 包 的 下 载 、 安 装 步 又 和 信息 请 参考 附录 A。 

nvcc 能 够 翻译 CUDA 专用 代码 ， 并 调用 CC++ 纺 详 右 生成 可 执行 的 二 进 制 文 
件 或 目标 文件 。 因 此 ， 同 时 需要 CUDA 编译 器 和 C/C++ 编译 器 才能 创建 GPU 可 执 
行文 件 。 

裔 注 世 的 是 ， 我 们 有 必要 事先 知道 编 详 副 的 位 辕 以 及 CUDA 运行 时 库 的 位 置 。 

很 多 时 候 ， 大 多 数 的 纺 详 钳 误 都 源 于 馈 误 定义 或 者 不 定义 编 详 器 和 库 的 位 
置 。 一 旦 确定 了 它们 的 位 置 ， 并 且 在 系统 环境 中 相应 地 设置 其 路 径 ， 那 么 开始 c- 
mex 和 CUDA 编程 将 会 变 得 非常 容 多 和 顺畅 。 





















































2.2.2 -编译 如 的 选择 

首先 在 MATLAB 中 选择 C 编译 器 。 在 MATLAB 命令 窗口 中 ， 运 行 mex - 
setup 命令 。 收 到 欢迎 信息 后 按 [y] 键 继续 ， 令 mex 定位 已 经 安装 的 编译 器 的 位 置 ， 
如 图 2.1 所 示 。 


© ABV. MATLAB 2013a 为 例 ， 使 用 其 他 版 本 的 读者 请 浏览 Mathworks 网 站 上 的 相应 网 页 ， 检 查 兼 容 性 。 


Vay, 
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Command Window ls Pa S a 


>> mex -setup 
Welcome to mex -setup. This utility will help you set up 


a default compiler. For a list of supported compilers, see 
http: //www.mathworks.com/support/compilers/R2012a/win64.html 


Please choose your compiler for building MEX-files: 
Would you like mex to locate installed compilers [y]/n? 


Select a compiler: 
[1] Microsoft Visual C++ 2010 in c:\Program Files (x86)MMicrosoft Visual Studio 10.0 
[2] Microsoft Visual C++ 2008 SP1 in c:\Program Files (x86)MMicrosoft Visual Studio 9.0 


[0] None 


fx Compiler: 


图 2.1 TE MATLAB 命令 窗口 中 的 c-mex 配置 信息 


在 本 例 中 ， 有 了 两 个 Microsoft Visual Cinikas Hj; 选择 [1 将 Microsoft 
Visual C++ 2010 作为 C++ 编译 器 。MATLAB 会 询问 是 和 否 确认 选择 ， 按 [y] 键 确认 。 
—H MATLAB 更 新 配置 文件 ， 束 要 完成 编 详 器 的 选择 。 更 新 的 c-mex 配置 文件 包 
含 使 用 的 C++ 编 译 占 信息 ， 以 及 如 何 编译 和 链接 C++ 代 但 。 

配置 文件 实际 上 是 由 mex 文 持 的 模板 生成 和 更 新 的 。 所 有 mex 文 持 的 模板 配置 文 
件 在 Windows 系统 中 都 位 于 MATLABroot\bin\win32\mexopts (32 位 操作 系统 ) 或 
MATLABroot\bin\win64\mexopts (64 位 操作 系统 ); 在 UNIX 系统 中 ， 则 位 于 
MATLABroot/bin 文件 夹 。 图 2.2 展示 了 MATLAB 命令 窗口 中 c-mex 设置 的 实例 会 话 。 












Please verify your choices: 


Compiler: Microsoft Visual C++ 2010 
Location: c:\Program Files (x86)MMicrosoft Visual Studio 10.0 


Are these correct [y]/n? y 


LAZ22222222222222222222222222222222222222222222222222222222222222222222222221 
Warning: MEX-files generated using Microsoft Visual C++ 2010 require 
that Microsoft Visual Studio 2010 run-time libraries be 
available on the computer they are run on. 
If you plan to redistribute your MEX-files to other MATLAB 
users, be sure that they have the run-time libraries. 


(A222 2 n ve vn ve vn vn ve vn ve yn vu ve vn ve vn vn ve vn ve vn ve ve vu ve n ve vn vu vn vn ve vn ve vn n ve vn ve vn n ve vn vu vn n vn n ve vn vn vn e ve vn ve vn n ve vn vu ve vu vn vn ve vu v v» » 


Trying to update options file: C:\Users\Memy\AppData\Roaming\MathWorks\MATLAB\R2012a\mex 
From template: C:\PROGRA~1\MATLAB\R2012a\bin\win64\mexopts\msvci00opts.bat 


Done . . . 


ve ye ve e e e e en oe oe oe eoe oe oe oe oe oe eon oe oe oe eoe e eoe ee oe oe oe ee eoe oe oe oe oe e ee oe eoe oe e oe e oe eoe oe eode e n oe yn oe oe on e vn on yn vn vn vn vn x 


Warning: The MATLAB C and Fortran API has changed to support MATLAB 
variables with more than 2^32-1 elements. In the near future 
you will be required to update your code to utilize the new 
API. You can find more information about this at: 
http://www.mathworks.com/help/techdoc/matlab external/bsflnue-1.html 
Building with the -largeArrayDims option enables the new API. 


LASSSSSSSSSASSASSSASSSASSSSASSSSSSSSSASASSAASSASASASSSSSSSSSASSSSSASS2S2 4522222240 2i 











图 2.2 c-mex 配置 中 确认 C/C++ 编译 如 
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对 于 选择 的 编译 器 ，MATLAB 使 用 一 个 内 置 模板 。MATLAB 会 给 出 该 
MATLAB 版 本 所 文 持 编译 器 的 列表 。 最 终 的 配置 文件 将 存储 所 有 用 于 c-mex 编译 
的 编 详 项 特定 顷 详 和 链接 选项 。 对 于 特殊 的 编译 需求 ， 可 以 纺 详 这 个 配置 文件 ， 
例如 警告 和 调试 选项 。 

可 以 在 如 下 位 置 找到 配置 文件 的 本 地 副本 : 

e Windows 7 操作 系统 

C:\Users\MyName\A ppData\Roaming\Math Works\MATLAB\R2012a\mexopts. bat. 

e Windows XP 操作 系统 

C:\Documents and Settings: MyName Application Data MathWorks MATLAB \R2012a\ 
mexopts.bat. 

e Mac OS X 操作 系统 

/Users/MyName/.MATLAB/R2012a/mexopts.sh. 

如 果 打 开 Mac PINACESCHE, thay DARE; ee fea rea PEAY) SDK。 可 以 
简单 地 编辑 SDKROOT 并 保存 〈 见 图 2.3). 

e Linux 发 行 版 

~/.MATLAB/R2012a/mexopts.sh. 








eoo -了 R2012a — vim — 93x31 "e 

$———————————ÓÓÓ———ÓÓÓÓ B 
naci64) 

| ————————————————————————————————————————— 


# StorageVersion: 1.0 

# CkeyName: GNU C 

# CkeyManufacturer: GNU 
$ CkeyLanguage: C 

# CkeyVersion: 


SDKROOT* ' /Developer/SDKs/Mac0SX10.7.5sdk' 


MACOSX_DEPLOYMENT_TARGET='10.5' 

ARCHS='x86_ 64° 

CFLAGS="—-fno-common -no-cpp-precomp -arch $ARCHS -isysroot $SDKROOT -mmacosx-vers 
ion-mins$MACOSX DEPLOYMENT TARGET" 

CFLAGS="$CFLAGS  -fexceptions" 

CLIBS="SMLIBS"” 

COPTIMFLAGS='-02 -DNDEBUG' 

CDEBUGFLAGS=‘-g‘ 


CLIBS-"SCLIBS -\stdc++" 

# C++keyName: GNU C++ 

# C++keyManufacturer: GNU 

€ C++keyLangquage: C++ 

# C++keyVersion: 

CXX=g++-4.2 

CXXFLAGS-"-fno-common -no-cpp-precomp -fexceptions -arch SARCHS -isysroot $SDKROO 
T -mmacosx-version-min-$MACOSX DEPLOYMENT, TARGET" 

CXXLIBS="S$MLIBS -\stdc++" 

ÉXXOPTIMFLAGS-'-02 -DNDEBUG' 


图 2.3 用 于 Mac OS X SDK 选择 的 mexopts.sh 文件 


MATLAB 支持 的 编译 器 随 操作 系统 和 MATLAB 版 本 的 不 同 而 不 同 。 再 次 强 
调 ， 必 须 确 保安 装 的 编译 器 能 够 为 系统 中 已 安装 的 MATLAB 版 本 所 支持 。 
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2.9 使 用 emex SC “Hello, mex!” 


现在 循序 渐进 地 用 c-mex 实现 “Hello，mex!”。 

步骤 1 创建 一 个 空 工作 文件 夹 ， 例 如 ， 

c:\junk\MATLABMeetsCuda\Hello 

+5982 打开 MATLAB, JfXE MATLAB 工具 栏 中 把 工作 路 径 设 置 为 当前 文 
件 夹 ， 如 图 2.4 所 示 。 


D MATLAB R20122 


File Edit Debug Parallel Desktop Window Help 

: t | 4 9 I 5 © | Sy E |O | Curent Folder: SMe E EET » Le 

` Shortcuts 回 Howto Add @ What's New 

Current Folder ON e PR 97 Workspace "Dax 


Gan, -Aa @ |& >» SEU SES 


|] Name « Name ^ Value 
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步骤 3 打开 MATLAB Suites, FERAL File? New Script 创建 新 的 脚 
本 。 然 后 在 编译 器 中 将 新 脚本 保存 为 helloMex.cpp， 如 图 2.5 所 示 。 





File Edit Tex Go Cell Tools Debug Desktop Window Help 
QGH SRAC D- |A a f;| i) - BL BWA wD A | oc se ~|| fy 
gop) - fo Je] +pa |x [B989|O. 





Date modified Type 


No items match your search. 


File name: helloMex.cpp 


Save as type: [a Files C 2 D Cancel | 
E 











[tn 1 Col 1 [OVR . 


2.5 将 新 脚本 你 存 为 C++ 文件 
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步骤 4 在 编 详 窗 中 输入 如 下 代码 ， 选 择 末 单 中 的 File>Save 你 存 文件 : 


#include "mex.h" 


void mexFunction(intnlhs, 
mxArray *plhs[], 


HWP e 


int nrhs, 
const mxArray *prhs[ ]) 


mexPrintf("Hello, mex! An"); 


LO o On On 
mM 


mexPrintf(..)49 C/C++ 中 的 printfl..) 等 效 。 与 在 printf 命令 中 打印 stdout 不 同 ， 
mexPrintf 命令 在 MATLAB 命令 窗口 中 打印 出 编排 好 格式 的 指令 信息 。 你 能 发 现 其 
使 用 方法 与 printf 相同 。 

aR 5 返回 MATLAB。MATLAB 在 当前 文件 夹 中 显示 新 建文 件 helloMex.cpp。 
然后 在 命令 窗口 运行 以 下 指令 ， 编 译 代码 : 





>> mex helloMex.cpp 


c-mex 调用 所 选择 的 编译 右 完 成 编译 、 链 接 并 最 终生 成 二 进 制 文件 。 生 成 的 二 
进 制 文件 能 够 为 正常 的 MATLAB 会 话 所 调用 。 

步骤 6 上述 步骤 成 功 后 ， 会 在 Windows 系统 相同 文件 夹 下 生成 新 的 文件 
helloMex.mexw64 (或 helloMex.mexw32)， 如 图 2.6 所 示 。 

步骤 7 在 命令 窗口 输入 相应 指令 ， 束 能 同 c-mex 说 “Hello” 了 ， 如 图 2.7 
Bt. 


4@\ MATLAB R2012a 








File Edit View Debug Parallel Desktop Window Help 

QNA 4289 C | ër E) | @ | Current Folder: C:\junk\MatlabMeetsCuda\Hello 
: Shortcuts [Z] Howto Add [Z] What's New 

Current Folder D a X| Command Window 


; « Hello ” 2 © O- >> mex helloMex.cpp 
>> 
fs >> 


Name ¥ 
| D helloMex.mexw64 


CÀ helloMex.cpp 


helloMex.mexw64 (MEXW64 File 


No details available 








图 2.6 ”从 C/C++ 代码 创建 c-mex 文件 
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(uw ee EE Ee 


File Edit Debug Parallel Desktop Window Help 
OSS| & Ep o | de nr E) | @ current Folder: c:\junk\MatlabMeetsCuda\Hello e L Ka 
` Shortcuts 加 Howto Add 园 What's New 











Current Folder 

i « Hello 4 T »» mex helloMex.cpp 
= >> 
= 一 LS = >> helloMex 
<| heloMexmexwo Hello, mex! 


Ctt) helloMex.cpp fs >> | 


helloMex.mexw64 (MEXW64 File) N 


No details available 





2.7 在 命令 窗口 运行 HelloMex 


>> helloMex 


DODGER LAT HS, RARE BBS c-mex 函数 ! 

在 上 面 的 例子 中 ， 我 们 生成 了 一 个 特殊 的 函数 mexFunction。 它 一 般 称 为 子 例 
行程 序 。 这 个 函数 提供 了 mex 共享 库 的 接 入 点 ， 类 似 于 C/C++ 编程 中 的 main(...) 
图 数 。 下 面 简 单 看 看 图 数 定 义 和 它 的 输入 参数 : 

void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const 


mxArray *prhs[]) 


nlhs: Itis the number of output variables. 

plhs: Array of mxArray pointers to the output variables 
nrhs: Number of input variables 

prhs: Array of mxArray pointers to the input variables 


在 接 下 来 的 革 节 中 可 以 了 解 更 多 细 市 。 





2.4 MATIAB 中 的 CUDA 配置 


MÆRI E CUDA. aik CUDA 代码 需要 nvcc 编译 堪 。 编 译 需 能够 翻译 
代码 中 CUDA 专用 代码 ， 并 且 生 成 用 于 GPU 和 主机 系统 的 机 器 代码 。nvcc 在 后 
台 使 用 我 们 配置 的 C/CH VERS o 

在 开始 添加 CUDA 代码 前 ， 要 先 检 查 CUDA 是 否 正确 安装 。CUDA Toolkit St 
认 安 装 在 如 下 路 径 : 

e Windows 操作 系统 
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C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v#.# 
Hm, HENMAN (2 或 者 更 高 )。 

e Mac OS X 操作 系统 

/Deverloper/N VIDIA/CUDA-#.#. 

e Linux 操作 系统 

/ust/local/cuda-#.#. 

如 果 安 装 正确 ， 你 应 该 可 以 在 MATLAB 控制 界面 使 用 如 下 指令 : 





>> system('nvcc') 


"nvcc : fatal error : No input files specified; use option -help for more 
information." 


如 信息 所 示 ， 可 以 确定 错误 是 由 于 没有 指定 要 编译 的 输入 文件 。 然 而 ， 如 果 
MATLAB 显示 信息 : 





"hvcc is not recognized as an internal or external command, operable program 
or batch file" 


则 意味 看 CUDA 没有 正确 安装 。 在 进行 下 一 步 前 ， 很 可 能 需要 参考 http://docs. 
nvidia.com/cuda/index.html 来 确保 在 系统 中 正确 安装 CUDA。 

下 面 介 绍 一 些 确保 CUDA 环境 正确 配置 的 小 技巧 。 

在 Windows 操作 系统 中 ， 在 命令 提示 人 符 输 入 path FROM £r Es 14: 








Cite path 


在 PATH 变量 中 能 看 到 NVIDIA 编译 器 路 径 如 下 : 

PATH= C:\Program Files\NVIDIA GPU Computing ToolkitNCUDAM v#.é#\bin\;C: 

\WINDOWS\system32;C:\WINDOWS;C:\WINDOWS\System32\Wbem;C:\Program Files 

\MATLAB\R2010b\bin;C:\Program Files\TortoiseSVN\bin; 

或 者 打开 Control Panel>All Control Panel Items>System>Advanced System 
Settings, WK) 2.8 Aras. KF Windows 操作 系统 的 更 多 信息 参见 http:/ 
docs.nvidia.com/cuda/cuda-getting-started-guide-for-microsoft-windows/index. html. 

在 Mac OS X 操作 系统 中 ， 在 Finder 中 通过 /Application/Utilities 找到 终端 应 
Ho Æ shell 中 ， 输 入 以 下 代 但 : 
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imac:bin $ echo $PATH 
/Developer/NVIDIA/CUDA-5.0/bin:/usr/bin:/bin:/usr/sbin:/sbin:/usr/ 
local/bin:/usr/X11/bin 


System Properties 


f í H H 
| | Computer Name | Hardware | Advanced | System Protection | Remote | Environment Variables 








| 
| You must be logged on as an Administratorto make most of these changes. User variables for Memy 





Performance 


Variable Val 
Visual effects, processor scheduling, memory usage, and virtual memory = = 


TEMP %USERPROFILE%\AppData \Local\Temp 
TMP Y%USERPROFILE%\AppData\Local\Temp 








User Profiles 
Desktop settings related to your logon : New... | | Edit... ] | Delete | 








System variables 





Variable Value 

NVTOOLSEXT P... C:\Program Files\NVIDIA GPU Computin... 

OS Windows, NT zx 
Path C:\Program Files (x86) \NVIDIA Corpora... 
PATHEXT .COM;.EXE;.BAT;.CMD;.VBS;.VBE;.]S;... 7 


(Environment Variables... [ New. ][ tdt. |[ Deete | 
Lo JI ems | 


Startup and Recovery 
System startup, system failure, and debugging information 
































OK Cancel 





图 2.8 PATH 变量 中 NVIDIA 编译 器 路 径 





你 能 在 CUDA KRM ARTIKI. BERF Mac OS X 操作 系统 的 信息 参见 
http://docs.nvidia.com/cuda/cuda-getting-started-guide-for-mac-osx/index.html. 
在 Linux 中 ， 例 如 ， 在 bash 中 输入 以 下 代码 : 


[userQlinux bash ~]$ echo $PATH 

/usr/java/default/bin: /opt/CollabNet Subversion/bin:/bin:/sbin:/ 
usr:/usr/bin:/usr/sbin:/opt/openoffice.org3/program:/usr/local/cuda/ 
bin:/usr/java/default/bin:/usr/local/bin:/bin:/usr/bin: 


然后 寻找 nvcc 路 径 。 在 本 例 中 ，nvcc ZiXTE/usr/local/cuda/bin. Di Z 
Linux 操作 系统 的 信息 参见 http://docs.nvidia.com/cuda/cuda-getting-started- 





guide-for-linux/index.html. 


2.5 ”实例 ;使 用 CUDA 实现 简单 的 向 量 加 法 


首先 以 徐 单 通用 的 癌 量 加 法 为 例 。 本 例 需 要 创建 一 个 CUDA 函数 ， 完 成 两 个 
相同 大 小 的 输入 同 量 的 加 法 ， 并 输出 具有 相同 大 小 的 独立 回 量 作为 结果 。 
步 又 1 在 工作 目录 中 创建 AddVectors.h， 输 入 以 下 代码 并 保存 : 
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#ifndef | ADDVECTORS H . 
#define  ADDVECTORS H . 


extern void addVectors(float* A, float* B, float* C, int size); 


#endif // | ADDVECTORS H 











在 此 头 文 件 中 ， 声 明了 mex KARRIERA [ed Be DE ER URS. extern. 表 
AN TK PR ACE LE EET SC EAT -o 

步骤 2 在 AddVectors.cu 中 实现 addVectors 函数 。 文 件 扩展 名 .cu 表示 CUDA X 
件 。 在 MATLAB 编辑 器 中 创建 一 个 狐 文 件 。 输 入 以 下 代码 并 保存 为 AddVectors.cu: 


jHinclude "AddVectors.h" 
jHinclude "mex.h" 


. global. void addVectorsMask(float* A, float* B, float* C, int 


size) 


{ 


j 


int i 2-blockIdx.x; 
if (i >= size) 


return; 


CLi]=ALi]+B[i]; 


void addVectors(float* A, float* B, float* C, int size) 


{ 


} 


float *devPtrA=0, *devPtrB=0, *devPtrC=0; 


cudaMalloc(&devPtrA, sizeof(float) * size); 
cudaMalloc(&devPtrB, sizeof(float) * size); 
cudaMalloc(&devPtrC, sizeof(float) * size); 


cudaMemcpy(devPtrA, A, sizeof(float) * size, 
cudaMemcpyHostToDevice); 
cudaMemcpy(devPtrB, B, sizeof(float) * size, 
cudaMemcpyHostToDevice); 


addVectorsMask << «size, 1 5» » (devPtrA, devPtrB, devPtrC, 
size); 


cudaMemcpy(C, devPtrC, sizeof(float) * size, 
cudaMemcpyDev i ceToHost) ; 


cudaFree(devPtrA); 
cudaFree(devPtrB); 
cudaFree(devPtrC) ; 


步骤 3 此 本 步骤 中 ， 使 用 -c 选项 编译 简单 的 CUDA 代码 ， 生 成 目标 文件 ， 
该 文件 和 后 将 用 于 链接 mex 代码 。 由 此 代码 建立 目标 文件 ， 在 MATLAB 命令 窗 
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口中 输入 以 下 指令 : 
>>system(nvec —c AddVectors.cu') 


成 功 后 ， 你 将 会 在 命令 窗口 中 看 到 nvcc 返回 如 下 所 示 相 关 似 的 信息 : 


AddVectors.cu 
tmpxft 00000dcO0. 00000000-5 AddVectors.cudafel.gpu 
tmpxft 00000dcO0. 00000000-10 AddVectors.cudafe2.gpu 
AddVectors.cu 
tmpxft 00000dcO0 00000000-5 AddVectors.cudafel.cpp 
tmpxft 00000dcO0. 00000000-15 AddVectors.ii 
ans — 

0 


如 果 命 令 窗 口中 显示 如 下 错误 信息 








nvcc' is not recognized as an internal or external command, operable 
program or batch file 


这 说 明 未 在 系统 中 设置 C++ 编译 器 路 径 。 可 以 将 C++ Sn Eas BR Hes UII IR S 
环境 中 ， 或 者 通过 使 用 -ccbin 选项 明确 设置 


>> system('nvcc -c AddVectors.cu -ccbin "C:\Program Files\Microsoft 
Visual Studio 10.0NVCNbin" ') 


步骤 4 注意 到 在 MATLAB 当前 文件 夹 窗口 中 ， 生 成 的 目标 文件 位 于 相同 的 
工作 目录 中 ， 如 图 2.9 所 示 。 





<< MatlabMeetsCuda > Hello 


|] Name v 

) helloMex.mexw64 
C+) helloMex.cpp 

fà AddVectors.obj 
in] AddVectors.h 

|_| AddVectors.cu 





图 2.9 创建 目标 文件 


步骤 和 创建 mex PAZ, — (也 可 称 为 AddVectors ŽO . 5 helloMex 函数 一 
样 ， 先 创建 mexFunction。 在 MATLAB 编辑 器 中 创建 新 文件 ， 输 入 以 下 代码 ， 并 
保存 为 AddVectorsCuda.cpp: 
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1 dHnclude "mex.h" 

2  #include "AddVectors.h" 

3 

4 void mexFunction(int nlhs, mxArray *plhs[], int nrhs, mxArray 

*prhsL[]) 

9. 4 

6 if (nrhs ! 2 2) 

7 mexErrMsgTxt("Invaid number of input arguments"); 

8 

9 if (nihs ! 2 1) 

10 mexErrMsgTxt("Invalid number of outputs"); 

11 

12 if (ImxIsSingle(prhs[0]) && !mxIsSingle(prhs[1])) 

13 mexErrMsgTxt("input vector data type must be single"); 

14 

15 int numRowsA = (int)mxGetM(prhs[0]); 

16 int numColsA zs (int)mxGetN(prhs[0]); 

17 int numRowsB = (int)mxGetM(prhs[1]); 

18 int numColsB 2 (int)mxGetN(prhs[1]); 

19 

20 if (numRowsA ! = numRowsB || numColsA ! = numColsB) 

21 mexErrMsgIxt("Invalid size. The sizes of two vectors must 
be same"); 

22 

E int minSize - (numRowsA «numColsA) ? numRowsA : numColsA; 

24 int maxSize —- (numRowsA>numColsA) ? numRowsA : numColsA; 

25 

26 if (minSize ! 2» 1) 

27 mexErrMsgTxt("Invalid size. The vector must be one 
dimentional"); 

28 

29 float* A- (Cfloat*)mxGetData(prhs[0]); 

30 float* B2 (float*)mxGetData(prhs[1]); 

31 

22 plhs[0] 2mxCreateNumericMatrix(numRowsA, numColsB, 

mxSINGLE CLASS, mxREAL) ; 

33 float* C2 (float*)mxGetData(plhs[0]); 

34 

35 addVectors(A, B, C, maxSize); 

36 j 


第 6 行 到 第 13 T, Km AND SCREAM IPIE TE EK). RAER 
输入 回 量 大 小 。 第 32 行 中 ， 创 建 输出 回 量 ， 存 储 两 个 癌 量 相 加 的 结果 。 第 35 
行 ， 调 用 基于 CUDA 的 函数 完成 两 个 输入 同 量 的 相 加 。 

步骤 6 编译 mex， 并 链接 到 创建 的 CUDA 目标 文件 。 在 MATLAB 命令 窗口 
中 输入 以 下 命令 。“《 运 行 环 境 为 Windows 64 位 操作 系统 和 CUDA v5.0) : 


>> mex AddVectorsCuda.cpp AddVectors.obj -lcudart -L"C:\Program 
Files\NVIDIA GPU Computing Toolkit\CUDA\v5.0\1ib\x64" 
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如 果 你 安装 的 是 CUDA v4.0， 将 v5.0 改 为 v4.0。 如 果 运 行 环境 为 Windows 32 


位 操作 系统 ， 将 x64 改 为 Win32。 例 如 : 


>> mex AddVectorsCuda.cpp AddVectors.obj -lcudart -L"C:\Program 
Files\NVIDIA GPU Computing Tool kit\CUDA\v4.0\1ib\Win32" 


-lcudart 告知 mex 正在 使 用 CUDA 运行 时 库 。 
-L"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v5.0\lib\x64" f 4H 


CUDA 运行 时 库 的 位 置 。 
对 于 MAC OS X 操作 系统 


>> mex AddVectorsCuda.cpp AddVectors.obj -lcudart -L"/Developer/ 
NVIDIA/CUDA-5.0/1ib" 


对 于 Linux 发 行 套 件 


>> mex AddVectorsCuda.cpp AddVectors.obj -1cudart -L"/usr/local/ 
cuda/lib" 


步骤 7 成 功 后 ， 在 同样 的 工作 路 径 中 会 生成 新 的 mex 文件 AddVectorsCuda. 
mexw64， 如 图 2.10 所 示 。 





出 « MatlabMeetsCuda > Hello 


Name * 
4) helloMex.mexw64 
C*] helloMex.cpp 
D AddVectorsCuda.mexw64 
CG) AddVectorsCuda.cpp 
| AddVectors.obj 
D AddVectors.h 
|_| AddVectors.cu 


图 2.10 生成 的 c-mex 文件 
步骤 8 在 MATLAB 中 运行 新 的 mex 函数 。 在 命令 窗口 中 ， 运 行 


>> A=single([12345678910]); 
>> Bssingle([10987654321)); 
>> C=AddVectorsCuda(A, B); 


步骤 9 核实 存储 在 向 量 C 中 的 结果 。 当 将 每 个 向 量 元 素 相 加 时 ， 结 果 向 量 C 











LI fF Ilo XE wb — di db EU 


可 以 通过 runAddVectors.m 运行 整个 过 程 ， 如 下 所 示 : 
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5 runAddVectors.m 
disp('1. nvcc AddVectors.cu compiling ...'); 


system('nvcc -c AddVectors.cu -ccbin "C:\Program Files (x86) Microsoft 
Visual Studio 10.0\VC\bin"' ) 


disp('nvcc compiling done ! '); 
disp('2. C/C++ compiling for AddVectorsCuda.cpp with AddVectors. 
0b3...' ); 


mex AddVectorsCuda.cpp AddVectors.obj -lcudart -L"C:\Program Files 
\NVIDIA GPU Computing Toolkit\CUDA\v5.0\1ib\x64" 


disp('C/C++ compiling done !'); 


disp('3. Test AddVectorsCuda() ...') 


disp('Two input arrays: ') 
À-—single([12345678910]) 
B-single([10987654321]) 


disp('Result:') 
C = AddVectorsCuda(A, B) 


Ze EH, 5 CUDA 相关 的 代码 放 在 文件 Add Vectors.cu F» AddVectors.h 
包含 文件 AddVectors.cu 定义 的 函数 原型 。mex 函数 CAddVectorsCuda.cpp 中 的 
子 例 行程 序 ) 通过 AddVectors.h 调用 CUDA 函数 。 利 用 nvcc.exe 将 CUDA X 
D Ceu) 编译 为 目标 文件 (.obj) 后 ， 使 用 mex 命令 编译 C/C++ 代 人 码 C.cpp) 
并 将 其 链接 到 CUDA 目标 文件 (.obj)。 最 终 得 到 可 执行 的 和 二进制 mex 文件 
(.mexw64)， 该 文件 包含 有 和 常规 的 cpp 文件 和 cu 文件 。 流 程 如 图 2.11 rz, 


AddVectors.h AddVectors.cu 









编译 CUDA 
代码 和 文件 








AddVectors.ob] 





AddVectorsCuda.cpp 





AddVectorsCuda,mexw64 
Windows (6447) 

AddVectorsCuda.mexw32 
( Windows 32i7) 


图 2.11 5E c-mex 编译 相关 的 CUDA EA ZEA 
0O: WAHL, O: 495, OD: 生成 文件 ) 
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2.6 图 像 卷 积 实例 


现在 创建 一 个 更 复杂 的 例子 。 首 先 ， 定 义 我 们 的 mex 函数 。 从 MATLAB 中 
读 入 一 个 样本 图 像 ， 然 后 将 其 传送 给 mex 函数 ， 该 函数 接着 使 用 3x3 掩 膜 进行 简 
PR ERIR, ARBRE] MATLAB。 看 看 在 下 和 耐 三 种 情况 下 如 何 完 成 这 个 任务 ， 
这 会 十 分 有 趣 : 

1) 使 用 MATLAB DÉI conv2. 

2) 使 用 纯 C++ 代 码 完 成 。 

3) 使 用 CUDA 完成 。 

本 贡 重 点 介绍 在 每 种 情况 下 如 何 用 简单 代码 加 以 实现 。 在 所 有 情况 下 ， 使 用 
相同 的 图 像 〈 见 图 2.12)， 它 的 数据 类 型 是 single ( 单 精度 浮 点 数 )， 与 3x3 IIe D 
数据 类 型 一 样 。 实 例 中 的 掩 腊 如 下 : 








File Edit View Insert Tools Desktop Window Help 


=e" E 9 25 9u.5-/dG0tEmum 





2.6.1 MATLAB 中 卷 积 运算 

MATLAB @ Vj E — ESTHER conv2. conv2 使 用 方便 ， 能 够 直接 计算 两 个 输 
入 矩阵 的 二 维 卷 积 。 首 先 看 看 在 纯 MATLAB 上 如 何 实现 。 

步骤 1 Æ MATLAB 命令 窗口 中 读 入 便 币 的 样本 图 像 : 
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>> quarters = single(imread(‘eight.tif’)); 
>> mask = single([121;000; -1-2-1]); 
>> imagesc(quarters); 

>> colormap(gray); 


注意 ， 输 入 图 像 和 手 膜 数据 类 型 为 single， 而 当 使 用 imread 读 取 图 像 时 ， 返 
回 的 图 像 数据 类 型 为 uvint8 (8 位 无 符号 整数 )。 由 于 CUDA 中 需要 使 用 single 数据 
类 型 ， 所 以 输入 数据 类 型 应 转换 为 single。 

步骤 2 使 用 conv2 进行 二 维 卷 积 


>> H = conv2 (quarters, mask, 'same'); 


AMER, ERPI shape 参数 选择 为 “same”。 通 过 设 定 第 三 个 参数 为 
same, XHK MATLAB 返回 输出 结 末 的 大 小 与 输入 图 像 相同 。 现 在 ， 男 出 输出 
图 像 DE EE 


>> imagesc(H); 
>> colormap(gray); 


可 以 使 用 convol matlab.m 运行 上 述 整 个 过 程 ， 代 人 码 如 下 : 


% convol matlab.m 











quarters — single(imread('eight.tif')); 
mask = single([121;000; -1-2-1)); 
imagesc(quarters); 

colormap(gray); 


H = conv2(quarters, mask, 'same'); 
imagesc(H); 
colormap(gray); 


结 来 图 像 如 图 2.13 所 示 。 





pa Figure 1 
| File Edit View Insert Tools Desktop Window Help 


DSGeas|s|8Qvoe4c-|\2/08\/a0 





图 2.13 梯度 图 像 结 
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2.6.2 ”用 编写 的 c-mex 计算 卷 积 


下 面 使 用 我 们 目 己 编写 的 c-mex 函数 执行 与 conv2 函数 相同 的 功能 。 在 开始 
运行 之 前 ， 先 重 温 一 下 上 个 例子 中 介绍 的 子 例 行 程 序 。 子 例 行 程序 共有 4 个 输入 
行 参 ， 前 两 个 用 于 将 c-mex 函数 的 输出 传输 到 MATLAB， 后 两 个 用 于 将 MATLAB 
的 输入 传输 到 c-mex 函数 : 











void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray *prhs[]) 
步骤 1 创建 新 文件 ， 输 入 如 下 代 但 并 保存 为 conv2Mex.cpp: 
1 #include "mex.h" 


3 void conv2Mex(float* src, float* dst, int numRows, int numCols, 
float* mask) 


4 d 

5 int boundCol =numCols - 1; 

6 int boundRow = numRows - 1; 

7 

8 for (int c =1; c < boundCol; c++) 

9 { 

10 for (int r=1; r< boundRow - 1; r++) 

11 { 

IZ int dstIndex = c * numRows+ r; 

13 int kerIndex = 8; 

14 for (int kc = -1; kc < 2; kc++) 

15 { 

16 int srcIndex = (c+ kc) * numRows r; 

17 for (int kr = -1; kr <2; kr++) 

18 dst[dstIndex] + = mask[kerIndex--]* src 

LsrcIndex+ kr]; 

19 } 

20 } 

21 } 

22 } 

23 

24 void mexFunction(int nlhs, mxArray *plhs[], int nrhs, mxArray 
*DPhsL 1) 

Z5 1 

26 if (nrhs ! 2 2) 

2/ mexErrMsgTxt("Invaid number of input arguments"); 

28 

29 if (nlhs ! 2 1) 

30 mexErrMsgTxt("Invalid number of outputs"); 

31 


32 if (ImxIsSingle(prhs[0]) && !ImxIsSingle(prhs[1])) 
ES mexErrMsgTxt("input image and mask type must be single"); 


34 GPU 5 MATLAB 混合 编程 


34 

35 float* image = (float*)mxGetData(prhs[0]); 

36 float* mask = (float*)mxGetData(prhs[1]); 

af 

38 int numRows = (int)mxGetM(prhsL0]); 

39 int numCols = (int)mxGetN(Cprhs[0]) ; 

40 int numKRows — (int)mxGetM(prhs[1]); 

41 int numKCols = (int)mxGetN(prhs[1]); 

42 

43 if (numKRows ! = 3|| numKCols ! = 3) 

44 mexErrMsgTxt("Invalid mask size. It must be3x3"); 

45 

46 plhs[0] = mxCreateNumericMatrix(numRows, numCols, 
mxSINGLE CLASS, mxREAL) ; 

47 float* out = (float*)mxGetData(plhs[0]); 

48 

49 conv2Mex(image, out, numRows, numCols, mask); 

50 J 


在 mexFunction 中 ， 先 检查 输入 和 输出 的 个 数 。 本 例 中 ， 必 须 有 两 个 输入 图 
BURIED 和 一 个 输出 ( 郑 积 结果 )。 然 后 人 确保 输入 数据 类 型 为 single。 再 人 确定 输 
入 图 像 和 掩 膜 的 大 小 ， 确 保 掩 膜 大 小 为 3x3。 在 第 46 行 ， 准 备 存储 运行 结果 的 输 
出 数组 ， 并 将 其 传 回 MATITLAB。 然 后 调用 我 们 编写 的 卷 积 函数 conv2Mex 进行 数 
字 运 算 。 

步骤 2 编译 我 们 编写 的 mex KAŽ, JA MATLAB 命令 窗口 调用 该 函数 。 
Ay PE} fal A 





>> mex conv2Mex.cpp 


如 果 编 译 成 功 ，mex 会 生成 一 个 二 进 制 文件 ， 在 64 位 Windows 操作 系统 中 文 
件 名 为 conv2Mex.mexw64. 
步骤 3 我 们 能 够 在 MATLAB 中 任意 地 方 调 用 这 个 函数 ， 并 得 到 结果 : 


>> quaters = (single)imread('eight.tif'); 
>> mask = single([121:000;-1 -2 -1])， 
>> H2 = conv2Mex(quarters, mask); 

>> imagesc(H2); 

>> colormap(gray); 


可 以 使 用 convol mex.m 运行 上 述 整 个 过 程 ， 代 但 如 下 : 
% convol mex.m 
mex conv2Mex.cpp 


quarters — single(imread('eight.tif')); 
mask = single((121;000; -1-2-1]); 
imagesc(quarters); 

colormap(gray); 


“2 2 MATLAB 和 CUDA 配置 35 


H2 = conv2Mex(quarters, mask); 
imagesc(H2); 
colormap(gray); 


2.6.3 ”在 编写 的 c-mex 中 利用 CUDA 计算 卷 积 


本 例 将 使 用 CUDA 也 数 进行 扼 积 运算 。 除了 通过 CUDA 实现 以 外 ， 该 CUDA 
CZ) TI c-mex 函数 功能 相同 。 
步骤 1 定义 在 CUDA 函数 中 调用 函数 的 原型 。 创 建新 文件 并 保存 为 


conv2Mex.h: 


1 #ifndef  CONV2MEXCUDA H ` 

2  1define  $CONV2MEXCUDA H . 

3 

4 extern void conv2Mex(float* in, 

5 float* out, 

6 int numRows, 
H int numCols, 
8 float* mask); 
9 

10 #endif // | CONV2MEXCUDA H ` 


步骤 2 Æ CUDA 中 执行 conv2Mex 函数 。 创 建 conv2Mex.cu 并 输入 如 下 代码 : 


1 #include "conv2Mex.h" 

2 

3 | global void conv2MexCuda(float* src, 
4 float* dst, 
5 int numRows, 
6 int numCols, 
7 float* mask) 
8 { 

9 int row=blockIdx.x; 

10 if (row<1 || row>numRows - 1) 

11 return; 

12 

13 int col 2 blockIdx.y; 

14 if (col «1]|| col »numCols - 1) 

15 return; 

16 

17 int dstIndex 2 col * numRows + row; 

18 dst[dstIndex]20; 

19 int kerIndex23*3- 1; 

20 for (int kc2-1; kc «2; kc++) 

21 { 

22 int srcIndex = (col + kc) * numRows + row; 
23 for (int kr=-1; kr «2; kr++) 

24 { 

26 dstLdstIndex] + = mask[kerIndex--] * src 


[srcIndex+kr]; 
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Zo : 


30 void conv2Mex(float* src, float* dst, int numRows, int numCols, 
float* ker) 


31 { 

32 int totalPixels =numRows * numCols; 

ES float *deviceSrc, *deviceKer, *deviceDst; 

34 

35 cudaMalloc(&deviceSrc, sizeof(float) * totalPixels); 
36 cudaMalloc(&deviceDst, sizeof(float) * totalPixels); 
ES) cudaMalloc(&deviceKer, sizeof(float) * 3* 3); 
38 

39 cudaMemcpy(deviceSrc, 

40 Src, 

41 sizeof(float) * totalPixels, 

42 cudaMemcpyHostToDevice); 

43 

44 cudaMemcpy(deviceKer, 

45 ker, 

46 sizeof(float) * 3*3, 

47 cudaMemcpyHostToDevice); 

48 

49 cudaMemset(deviceDst, 0, sizeof(float) * totalPixels); 
50 

51 dim3 gridSize(numRows, numCols); 

52 

53 conv2MexCuda << «gridSize, 15» >(deviceSrc, 
54 deviceDst, 
55 numRows, 

56 numCols, 

57 deviceKer); 
58 

59 cudaMemcpy(dst, 

60 deviceDst, 

61 sizeof(float) * totalPixels, 

62 cudaMemcpyDeviceToHost); 

63 

64 cudaFree(deviceSrc); 

65 cudaFree(deviceDst); 

66 cudaFree(deviceKer); 

67 ] 


使 用 cudaMalloc 水 数 分 配 CUDA S&H PJ4£.« ët CudaMemepy 根据 第 四 个 
参数 从 主机 复制 数据 到 设备 ， 或 者 从 设备 复制 数据 到 主机 。 然 后 在 CUDA 设备 
上 ， 给 输入 图 像 、 输 出 图 像 和 掩 膜 分配 内 存 。 使 用 cudaMemset， 初 始 化 输出 数据 
为 零 。 使 用 conv2MexCuda 进行 CUDA 调用 。 这 里 简单 地 设置 网 格 大 小 和 图 像 大 
小 相同 。 在 conv2MexCuda 中 ， 每 个 CUDA 网 格 应 用 3x3 IR, DPS BRS ATH 
素 的 卷 积 计算 值 。 第 4 章 将 详解 介绍 网 格 大 小 的 内 容 。 
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de 3 oli CUDA 代码 生成 目标 文件 ， 随 后 将 其 链接 到 c-mex 函数 。 在 
MATLAB 命令 窗口 输入 如 下 指令 完成 编译 : 


>> system('nvcc -c conv2Mex.cu' ) 


如 果 遇 到 编译 错误 ， 请 参考 2.5 节 “ 实 例 : 使 用 CUDA 实现 简单 的 向 量 加 
法 ”。 编 译 成 功 后 将 会 生成 conv2Mex.obj X fF. 

步骤 4 REEE mex 函数 ， 调 用 基于 CUDA Diir. OI rr 
件 ， 输 入 如 下 代码 ， 并 保存 为 conv2MexCuda.cpp: 


1 #include "mes hi 

2 #include "conv2Mex.h" 

3 

4 void mexFunction(int nlhs, mxArray *plhs[], int nrhs, mxArray 
*prhs[]) 

D Of 

6 if (nrhs ! = 2) 

7 mexErrMsgTxt("Invaid number of input arguments"); 

8 

9 if (nlhs 1» 1) 

10 mexErrMsgTxt("Invalid number of outputs"); 

Ll 

12 if (ImxIsSingle(prhs[0]) && !ImxIsSingle(prhs[1])) 

13 mexErrMsgTxt("input image and mask type must be single"); 

14 

15 float* image- (float*)mxGetData(prhs[0]); 

16 float* mask 2 (float*)mxGetData(prhs[1]); 

17 

18 int numRows = (int)mxGetM(prhsL[0]); 

19 int numCols = (int)mxGetN(prhs[0]); 

20 int numKRows = Cint)mxGetM(prhsL[1]); 

21 int numKCols = (int)mxGetN(prhs[1]); 

2e 

23 if (numKRows ! = 3 || numKCols ! = 3) 

24 mexErrMsgTxt("Invalid mask size. It must be3x3"); 

2b 

26 plhs[0] 2mxCreateNumericMatrix(numRows, numCols, 

mxSINGLE CLASS, mxREAL) ; 

27 float* out - (float*)mxGetData(plhs[0]); 

28 

29 conv2Mex( image, out, numRows, numCols, mask); 

30 j 


3r DI mex PK 20 RI B — Bt mJ BE AS AA Iu]. PE A x] ZE T- 98 — 1T ftinclude 
"conv2Mex.h"。 这 里 ， 我 们 在 conv2Mex.h 中 定义 conv2Mex KIŽ ZC conv2Mex.cu 中 
PAT VARIA © 

步骤 S 这 里 基于 CUDA DI mex 函数 已 经 准备 好 。 由 于 conv2Mex KAE 
conv2Mex.obj 中 ， 所 以 必须 告知 链接 占 函 数 的 位 置 。 同 时 ， 也 告知 链接 器 将 要 使 
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用 CUDA 运行 时 库 及 其 位 置 。 在 MATLAB 命令 窗口 输入 如 下 命令 。 
Windows 64 位 操作 系统 


>> mex conv2MexCuda.cpp conv2Mex.obj -lcudart -L"C:\Program Files 
\NVIDIA GPU Computing Tool kit\CUDA\v5.0\1ib\x64" 


Windows 32 位 操作 系统 


>> mex conv2MexCuda.cpp conv2Mex.obj -lcudart -L"C:\Program Files 
\NVIDIA GPU Computing Toolkit NCUDANv5.0NTibNWin32" 


Linux 操作 系统 


>> mex conv2MexCuda.cpp conv2Mex.obj -lcudart -L"/usr/local/cuda/ lib" 


Mac OS X 操作 系统 


>> mex conv2MexCuda.cpp conv2Mex.obj -lcudart -L"/Developer/ 
NVIDIA/CUDA-5.0/1ib" 


成 功 后 ，MATLAB 会 生成 mex phi 2, Æ Windows 64 位 操作 系统 中 为 
convMexCuda.mexw64. 
步骤 6 在 MATLAB 命令 窗口 执行 基于 CUDA 的 卷 积 函数 : 


>> quarters = single(imread('eight.tif')); 
>> mask = single([121;000; -1-2-1]); 
>> H3 = conv2MexCuda(quarters, mask); 

>> imagesc(H3); 

>> colormap(gray); 


此 时 ， 你 会 在 MATLAB es 图 像 。 
可 以 使 用 convol cuda.m 运行 上 述 整 个 过 程 ， 代 但 如 下 : 


5 CONVO! cuda.m 


system('nvcc -c conv2Mex.cu -ccbin "C:\Program Files (x86)\Microsoft 
Visual Studio 10.0\VC\bin' ) 

mex conv2MexCuda.cpp conv2Mex.obj -lcudart -L"C:\Program Files\NVIDIA 
GPU Computing Tool kit\CUDA\v5.0\1ib\x64" 


quarters = single(imread('eight.tif')); 
mask =single (Ll 21:000: =) -2-1])53 
imagesc(quarters); 

colormap(gray); 


H3 = conv2MexCuda(quarters, mask); 
imagesc(H3); 


colormap(gray); 
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2.6.4 简单 的 时 间 性 能 分 析 





通过 上 述 3 种 方法 完成 二 维 卷 积 运算 ， 可 以 得 到 相同 的 输出 图 像 。 我 们 主要 
关心 三 种 方法 在 耗 时 方面 的 性 能 。 更 多 详细 的 指令 和 信息 请 参见 第 3 章 。 这 里 ， 
在 MATLAB 中 使 用 tic 和 toc 指令 进行 简单 的 时 间 性 能 分 析 。 

下 面 是 采用 不 同方 法 时 ， 示 例 MATLAB 会 话 的 时 间 性 能 : 

>> tic; Hl =conv2(quaters, mask); toc; 

Elapsed time is 0.001292 seconds. 

>> tic; Hl =conv2(quaters, mask); toc; 

Elapsed time is 0.001225 seconds. 

>> tic; H2=conv2Mex(quaters, mask); toc; 

Elapsed time is 0.001244 seconds. 

>> tic; H2 = conv2Mex(quaters, mask); toc; 

Elapsed time is 0.001118 seconds. 

>> tic; H3 = conv2MexCuda(quaters, mask); toc; 


Elapsed time is 0.036286 seconds. 
>> tic; H3 = conv2MexCuda(quaters, mask); toc; 


Elapsed time is 0.035877 seconds. 

内 置 的 conv2 函数 和 我 们 编写 的 conv2Mex 函数 的 性 能 相同 。 然 而 ， 本 例 中 其 
于 CUDA 的 巷 积 要 比 上 述 两 个 函数 慢 得 多 。 这 是 因为 处 理 的 数据 尺寸 很 小 ， 而 且 
网 格 和 线程 块 的 尺寸 未 能 利用 GPU 架构 的 优势 。 


耗 时 /s 0.00123 0.00122 0.0358 


后 续 章 节 将 会 介绍 如 何 获得 更 详细 的 时 间 分 析 结 果 ， 以 及 如 何 优化 简单 的 
CUDA 函数 来 实现 加 速 。 
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与 在 AddVectors 中 所 做 的 相同 ， 将 基于 CUDA 的 函数 置 于 conv2Mex.cu 中 
( 见 图 2.14)。 文 件 conv2Mex.h US mex DÉI XM, conv2MexCuda.epp 调用 子 例 
行程 序 。 编 译 CUDA 代码 为 目标 文件 后 ， 使 用 mex 指令 来 编译 mex 代 但 并 链接 到 
CUDA 目标 文件 。 
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编译 CUDA 
代码 和 目标 







文件 






conv2Mex.obj 


编译 mex 代 码 并 链接 到 使 用 nvcc 
产生 的 目标 文件 


conv2MexCuda.cpp 








conv2MexCuda.mexw64 
(Windows 6447) 

(conv2MexCuda.mexw32 
Windows 3247) 


图 2.14 示例 的 总 结 框图 
( 口 ， 输入 源 文 件 ， 口 : 指令 ， 日 : 生成 文件 ) 


宙 3 草 ”通过 耗 时 分 析 进 行 最 优 规划 


3.1 本 草 学 习 目 标 


通过 分 析 ， 可 以 找 出 代码 中 较为 耗 时 的 部 分 ， 确 定 代 人 码 租 贷 。 由 于 较 大 的 程序 
实际 中 往往 包括 多 层 ， 不 能 直接 依次 查找 函数 ， 而 需要 调用 其 他 一 些 耗 时 的 函数 。 
而 且 可 能 会 在 代 但 较 低 层 遇 到 这 种 情况 。 通 过 分 析 的 过 程 ， 可 以 有 效 判断 哪些 代码 
是 负责 上 述 情 况 调用 的 。 对 于 优化 规划 来 说 ， 这 是 关键 的 一 步 。 在 本 章 ， 你 可 以 了 
解 以 下 内 容 : 

e (EH MATLAB 内 置 分 析 右 人 查找 m SCPE ASS 

e 采用 C/C++ 分 析 方 法 进行 c-mex 代码 分 析 。 

e 使 用 Visual Studio 和 NVIDIA Visual Profiler 进行 CUDA 代码 分 析 。 

e c-mex 调试 器 的 环境 设置 。 





3.2 分 析 MATLAB 代码 查找 瓶颈 


3.2.1 ”分析 厚 的 使 用 方法 

SAIS Ize, MATLAB 提供 了 相当 易于 使 用 的 分 析 器 (profiler). Fi Feu i 
用 第 2 章 的 二 维 耸 积 范例 进行 时 间 分 析 范 例 。 

你 可 以 通过 两 种 方式 调用 MATLAB 分 析 器 。 第 一 种 方法 是 在 MATLAB 
Desktop 中 选择 Profiler (WA 3.1)。 第 二 种 方法 是 在 命令 窗口 输入 “profile 


viewer”: 

















>> profile viewer 


这 样 ， 可 以 得 到 如 图 3.2 PrTZRÉRI) ras fi Fo 

为 了 使 用 二 维 若 积 泡 例 ， 在 使 用 分 析 右 之 前 ， 要 在 MATLAB 主 窗口 下 更 改 当 
本 文件 夹 ， 如 图 3.3 所 示 。 然 后 当 和 需要 运行 分 析 器 时 ， 在 “Run This Code: ”处 输 
入 想 要 运行 的 程序 。 这 里 以 convQuarterImage.m 为 例 ， 如 图 3.4 所 示 。 

可 以 得 到 如 图 3.5 所 示 的 分 析 结 果 。 在 每 一 列 索引 中 ， 可 以 点 击 Function 
Name. Calls, Total Time 和 SelfTime， 根 据 索 引 对 结果 进行 排序 。 
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ATLAB R2123 
Fie Ct ug e Pinson He 
‘OS 487° a Mirsmize Command Window ‘Documents\Books\Chapters\Ch3\codes 
Shortcuts Z) Howto Add Z|) O Maximize Command Window CtrleShifteM | 
Current Folder SS ^ Undeck Command Window ` Ctrl«Shift«U Wos 
B «code -p| + Move Command Window E 
` [Namea ** Resize Command Window Nar 
pre Desktop Layout > 


comQuarterimageOtd.m Save Layout... 


e 


Command Window 


«[«|«|« 








X| 3.1 从 MATLAB desktop 菜单 选择 分 析 器 


File Edit Debug Desktop Window Help 
e> lA 
: Start Profiling Run this code: | ~ | @ Profile time: 0 sec 

















Profiler for Improving Performance 


One way to improve the performance of your MATLAB programs is using profiling tools. MATLAB provides a graphical user interface 
that is based on the results returned by the profile function. Use this tool to help you determine where you can modify your code 
to make performance improvements. 


For details on how to use the Profiler, see the Profiler documentation. 








MATLAB R2012a À e —— 






File Edit Debug Parallel Desktop Window Helc 
:Qdixmmocc€ihrs,!oJ]curnroder CAUsers JungSuh Documents Books Chapters Ch3 codes 
` Shortcuts [2] Howto Add [2] What's New 

















Current Folder Lo Pt I SA Workspace Mo 
Ji « codes - 2 © @- |f& >>| ©) mi SN M Nb | stack: | LD select datato plot ~ 
] Name ^ Name ^ Value Min 
£ convQuarterlmage.m 
É) convQuarterlmageOld.m 





3.3 YE MATLAB 主 窗口 下 更 改 当 前 文件 夹 
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File Edit Debug Desktop Window Help 
: ole e e EE 
` Start Profiling @ Profile time: 3 sec 


^ 




















X] 3.4 MATALB 分 析 器 中 Run this code 栏 


如 果 在 Function Name 列 中 点 击 convQuarterImage， 就 可 以 得 到 convQuarter 
Image 文件 中 每 一 行 更 详细 的 耗 时 信息 ， 如 图 3.6 所 示 。 


B 0 0 ERN NM RM i 


File Edit Debug Desktop Window Help 
K E ZAIEN.) 


: Start Profiling Run this code: 'convQuarterlmage v | @ Profile time: 3 sec 

















Profile Summary 
Generated 20-Feb-2013 05:31:45 using cpu time. 


Function Name Calls Total Time SelfTime* Total Time Plot 
(dark band = self time) 


(3386s 1061s 
15/5s | 0.156s 
1.419 s 0.998 s 

|073s 0203s 

(0390s 0047s 





newplot» ObserveAxesNextPlot | 0.390 s 0.000 s 
graphics\private\clo 2 (0343s 0124s 
| 0295s — 0265s 

(0234s — 0078s 

0140s 0.015s 

|0109s 0094s 

[0094s 0063s 

setdiff | 0.094s 0000s 





3.5 MATLAB 分 析 器 中 的 耗 时 分 析 总 结 











File Edit Debug Desktop Window Help 
|» 23/4 


: Start Profiling Run this code: ‘convQuarterimage 




















convQuarterlmage (1 call, 3.386 sec) 

Generated 20-Feb-2013 05:50:34 using cpu time. 

script in file C:\Users\JungSuh\Documents\Books\Chapters\Ch3\codes\convQuarterlmage.m 
py to new window for comparing multiple runs 


Show parent functions Show busy lines Show child functions 
Show Code Analyzer results [V] Show file coverage [V] Show function listing 


Parents (calling functions) 
No parent 


Lines where the most time was spent 
Line Number Code Calls Total Time % Time Time Plot 
| imagesc (quarters); | 1 1.607 s | 47.596 | 
quarters = imread('eight.tif')... | 1 0.796 s 23.596 


| H = conv2 (single (quarters), si... | 1 | 0.655 s 19.496 


figure; 0.250 s 7.496 


colormap (gray) ; 0.031 s 0.9% 
All other lines 0.046 s 1.4% 
Totals 3.386 s 100% 





3.6 分析 结果 中 的 更 多 细 市 
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回 下 滚动 这 个 窗口 时 ， 可 以 看 到 根据 各 个 类 列 〈《 时 间 、 总 调用 次 数 、 畴 盖 
AE) 融 之 标识 的 代码 。 根 据 分 析 结 果 ( 见 图 3.7) 可 以 看 到 imagesc( ) 和 imread( ) 4 
用 convQuarterImage 大 部 分 的 运行 时 间 。 因 为 imread( ) 是 读 取 输入 图 像 的 函数 ， 
imagesc( ) 是 缩放 或 者 显示 输入 图 像 的 水 数 ， 所 以 可 以 只 关注 下 和 面 的 纯 计 算 部 分 ， 
这 部 分 耗 时 更 多 : 


z Aie = > mm: -——— mg 


File Edit Debug Desktop Window Help 
"^8 2 
: Start Profiling Run this code: convQuarterlmage v | @ Profile time: 3 sec 
Coverage results 
Show coverage for parent directory 

Total lines in function 10 




















Non-code lines (comments, blank lines) 2 
Code lines (lines that can run) 8 
Code lines that did run 8 
Code lines that did not run 0 
Coverage (did run/can run) 100.00 96 


Function listing | | 
Color highlight code according to time - 


time calls line 

0.80 l 1 quarters = imread('eight.tif'); 
1.61 1 X 2 Bimageseiquaeeers) zd 

0.03 l 3 colormap (gray); 


1 5 kernel = [12 1; O 0 0; -1 -2 -1]): 
0.66 1 6 H = conv2 (single (quarters), single(kernel)); 


0.25 1 8 figure; 
0.02 L 9 imagesc (H); 
l 10 colormap (gray): 





图 3.7 分 析 结 果 中 每 一 行 的 耗 时 信息 


H-conv2(single(quarters), single(kernel)); 


3.3 节 可 以 看 到 用 c-mex 蔡 换 这 一 行 时 的 分 析 结 果 ， 并 了 解 c-mex 中 的 C/C++ 
分 析 方 法 。 


322 ”针对 多 核 CPU 更 精确 的 耗 时 分 析 


如 今 ， 多 核 CPU 计算 机 十 分 普 裔 ， 程 序 运行 速度 与 可 用 的 内 核 数 量 及 它们 的 可 
用 性 直接 相关 。 如 果 只 想 要 粗略 地 了 解 函 数 调 用 次 数 和 耗 时 ， 而 不 需要 了 解 CPU 占 
用 率 更 精确 的 信息 ， 那 么 使 用 前 面 介绍 的 分 析 器 设置 方法 就 可 以 满足 要 求 了 了。 然而 
在 某 些 情况 下 ， 需 要 更 精确 地 分 析 程 序 的 使 用 情况 。 要 做 到 这 一 点 ， 就 需要 在 
MATLAB 之 外 ， 手 动 地 设置 可 以 使 用 的 内 核 数 量 ， 分 析 需 要 精确 测量 的 代码 。 在 
Windows 操作 系统 中 ， 很 容易 控制 CPU 内 核 使 用 数量 ， 如 图 3.8 所 示 。 
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Toolbars » 


Cascade windows 

Show windows stacked 
Show windows side by side 
Show the desktop 


i 鼠标 右键 v Lockthetaskbar 


Properties 








图 3.8 控制 CPU 内 核 使 用 数量 ， 打 开 “ 局 动 任务 虑 理 器 ” (Start Task Manager) 


在 任务 柱 上 单 击 眼 标 右键 ， 可 以 打开 “局 动 任务 宦 理 器 ”(Start Task Manager) 
KE. Hh ES E SES. FIIF “Windows 任务 管理 器 ”(Windows Task 
Manager) 窗口 ， 如 图 3.9 Wr. 

















End process Tree 








UAC Virtualization 
Create Dump File 








图 3.9 控制 CPU 内 核 使 用 数 ， 单 击 “ 设 置 相关 性 ”《〈Set Affinity...) 


对 MATLAB 进程 ， 单 击 右 键 ， 选 择 “ 设 置 相关 性 ”(Set Affinity...2. “AJA 
进入 各 处 理 器 的 选择 访问 窗口 ( 见 图 3.10)， 你 可 以 选择 使 用 某 个 特定 的 处 理 
器 来 分 析 代 码 。 选 择 一 个 处 理 器 运行 MATLAB.exe， 而 关闭 其 他 处 理 器 ， 可 以 
更 精确 地 分 析 代 码 ， 如 图 3.11 所 示 。 


46 GPU 5 MATLAB 混合 编程 


jS Windows Task Manager 


File Options View Help 





«All Processors» 
Image Name User Name Description CPU 0 


igfxext.exe JungSuh 548K  igfxext M... n " 
igfxpers.exe JungSuh 600K  persisten... CPUS 
igfxsrvc.exe JungSuh 1,004K  igfxsrvc ... 

igfxtray.exe JungSuh 544K  igfxTray ... 
iuBrowserIEA...  JungSuh 1,236K  iuBrowser... 
iuEmailOutloo... JungSuh 1,484K  iuEmailOu... 
iusb3mon.exe... 528K Intel(R) U... 
LManager.ex... 1,044K LaunchM.. — 
LMutilps32.exe 700K 

LMworker.exe... 372K Launch M... 
MATLAB.exe 276,504K MATLAB (... 
MMDx64Fx.exe ` JungSuh 340K  MMDx64F... 
notepad++.e... JungSuh 2,288K Notepad... 
nvtray.exe JungSuh 964K  NVIDIA S... 
nvvsvc.exe 828 K 


J Show processes from all users 


Processes: 133 CPU Usage: 9% Physical Memory: 85% 











图 3.10 控制 CPU 内 核 使 用 数 ， 单 击 “ 处 理 器 相关 性 ” (Processor Affinity) 窗口 


Processor Affinity 


Which processors are allowed to run 'MATLAB.exe"? 


[E] <All Processors» 
CPU 0 
[7] CPU 1 
[7] cpu 2 
[7] cpu 3 





图 3.11 控制 CPU 内 核 使 用 数量 ， 选 择 要 使 用 的 处 理 器 
3.9 CUDA 的 emex 代码 分 析 


3.3.1 利用 Visual Studio 进行 CUDA 分 析 


X]-T 223€ | Microsoft Visual Studio 的 CUDA, NVIDIA Nsight (Visual Studio 
版 ) 是 一 个 免费 的 开发 环境 。NVIDIA Nsight (Visual Studio 版 ) 提供 了 强大 的 调 
AAI ATRL, XX CUDA 代码 开 友 非常 有 效 。NVIDIA Nsight HY kä NI 
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参考 附录 B. 

下 面 利 用 CUDA 重 温 卷 积 的 范例 。 在 第 2 章 中 ， 使 用 CUDA 函数 创建 了 一 个 
卷 积 函数 ， 在 MATLAB 命令 窗口 中 运行 ， 如 下 所 示 : 

>> quarters-single(imread('eight.tif')); 

>> mask-esingle([12 1; 0 0 0; -1-2 -1]); 

>> H3=conv2MexCuda(quarters, mask); 


>> imagesc(H3); 
>> colormap(gray); 


使 用 3.2 节 介 绍 的 方法 ， 打 开 Visual Studio, | 3.12 Aras. 


| rien EES 
























Windows » F 


WEI J| 3 5338 B1 8) 937 . 








MEN Start GPU Debugging 
6 Start CUDA Debugging 


D Ultimate 


Options... 







Help Get Started ` Guidance and Resources Latest News 


的 New Project... 
es 
OH Open Project... 


Welcome Windows Web Cloud Office SharePoint Data 








3 What's New in Visual Studio 2010 
Learn about the new features included in this release. 


Visual Studio 2010 Overview 
What's New in .NET Framework 4 


Recent Projects 


n csv2arff What's New in Visual C++ 


Customize the Visual Studio Start Page 





` Creating Applications with Visual Studio 


E z Extending Visual Studio 


图 3.12 Microsoft Visual Studio 中 和 安装 的 Nsight 


Ft Nsight 3#, XEF% Start Performance Analysis... "RH 4E. mill xeu 
在 不 安全 状态 下 连接 CULA 3.13). XF% Connect unsecurely, "7G OK 按钮 ， 束 会 
在 屏幕 上 显示 Visual Studio, Anl 3.14 所 示 。 


| Do you want to connect without security? 
Your connection is currently unsecured, For more information on enabling a 


secure connection, please see "How To: Configure a Secured Connection" in the 
Installation and Setup section of the Nsight Visual Studio Edition User Guide. 


Connect unsecurely 
Continue to establish the connection without security. 


Cancel connection 





[| Don't show this message again. | Cancel | 


图 3.13 ”用 于 连接 Nsight HI MATLAB DI Unsecure connection 对 话 框 


Xoq|oO| DË, 


Application: 


Working Directory: 


v) Remote Options 


Connection and Application Settings 
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" 





Connection Status 


Available Devices: 
GeForce 9400 (MCP79) 


Application Control 


Application is empty. 














Capture Control 


eo — 


[V] Open Report on Stop 





(Summary Page 














Show output from: | Nsight Analysis 


Analysis session created. 





Connection state changed to Connecting. 
Connection state changed to Connected. 
Physical devices detected: 


- GeForce 9400 


(WODM) 


:jI 2 133 3 | |l 


v Solution Explorer 
H r 


[3 Solution 'Solution1' (0 projects) 





图 3.14 Visual Studio 中 应 用 程序 链接 窗口 





在 Application Mb, Eth MPP Sew Pe, EE MATLAB 可 执行 文件 。 


MATLAB 可 执行 文件 可 以 在 MATLAB 安装 目录 下 找到 。 需 要 根据 系 





ALAMJ, E 


择 一 个 适合 的 可 执行 文件 。 例 如 ， 在 Windows 7 系统 中 ，64 位 MATLAB 可 以 在 


图 3.15 Brzn br Bod 


, 






^ 
a 


Organize v New folder 


到 可 执行 文件 。 


i. » Computer » Local Disk (C:) » Program Files » MATLAB » R2012a » bin » win64 » 


5- DN e 





$2 Dropbox 
| Recent Places 


RE Desktop 
3 Libraries 
eh Homegroup 
B Memy 
JB Computer 
E Network 
iW BROTHER 
i DISKSTATION 
iW FOSKIMY2L01 
"E MEMY-PC 
JS QUAIL 
EŞ Control Panel 
‘© Recycle Bin 
L install 


i iPhone Ebooks Collection 


1. Praises 


ctfxlauncher.exe 


gmake.exe 


- mlint.exe 





File name: MATLAB.exe 


3.15 


ctfxwlauncher.ex 


deploytool.exe 


MathWorks_Privil 
eged_Operation.e 


mwdot.exe 


dvoanalyzer.exe 


MATLAB.exe MATLABStartupA 


mwneato.exe mwtwopi.exe 


4.4.8 BH" 


dvoc.exe dvofxp.exe 


HHH XH 


InstallMATLABSt 
artupAccelerator. 


mcc.exe 
ccelerator.exe 


exe xe 


mpiexec.exe 


Printimage.exe 





~ [Executable Files (".exe) 


到 





选择 MATLAB 作为 连接 应 用 





Ki 
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选择 MAILAB.exe， 然 后 单 击 Open 按钮 ， 关 财 对 话 框 。 现 在 ， 回 下 滚动 一 
到 Activity Type 处 ， 单 击 选 中 Profile CUDA Application 选项 ， 如 图 3.16 所 
选择 此 选项 后 ， 可 以 看 到 Application Control 中 Launch 按钮 可 用 。 





een Activity2.nvact* - Microsoft Visual Studic 


File Edit View Debug Team  Nsight Data Tools Architecture Test Analyze Window Help 
A: u-deis-am^-cec-20-3l|» dl) || UF G3 a eB) A 


Activity2.nvact* X 
I 





xoqlool X 


Activity Type 


Trace Application 
Collects events from the target application. The analysis session and data collection are stopped when the launched application exits. 
Trace Process Tree 
Collects events from the target application and all native child processes of the target application. The analysis session and data collection are not stopped 
EZAN " . : j manually. 
© Profile CUDA Application 
Collects counters, statistics and derived values for given CUDA kernel launches. 


UDA Process Tree 
Collects counters, statistics and derived values for given CUDA kernel launches from the target application and all native child processes of the target 
application. The analysis session and data collection are not stopped when the launched application exits. The session and data collection must be stopped 
manually. 


Experiment Settings e 





Connection Status Application Control Capture Control 


o © e 


Available Devices: [V] Open Report on Stop 
GeForce 9400 (MCP79) Summary Page 
































Output 
Show output from: | Nsight Analysis il al Alselz 





Analysis session created. 
Connection state changed to Connecting. 
Connection state changed to Connected. 
Physical devices detected: 

- GeForce 94060 (WDDM) 


| C] Output 


图 3.16 选择 “Profile CUDA Application” 作 为 作业 类 型 


单 击 Launch 按钮 ， 然 后 可 以 看 到 MATLAB 开始 和 Visual Studio 一 起 运行 ， 


如 图 3.17 所 示 。 


在 MATLAB 命令 窗口 中 ， 运 行 基于 CUDA 的 卷 积 程序 CLA 3.18)， 然 后 回 


到 Visual Studio 中 ， 在 Capture Control〈 捕 获 控制 ) 对 话 框 中 单 击 Stop 按钮 C 
图 3.19)。 停 止 捕获 后 ， 可 以 看 到 CUDA Overview (UR 3.20)。 在 CUDA 标题 栏 
中 单 击 链接 Launches， 此 时 会 显示 出 CUDA KAARNA OU ER Sr A EY RISE PE 
( 见 图 3.21)。 如 果 选 择 conv2MexCuda [CUDA Kernel|， 你 可 以 看 到 所 设置 的 网 格 
和 线程 块 的 尺寸 ， 以 及 完成 这 个 任务 用 了 多 少时 间 ( 见 图 3.22). 
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ee Activity2.nvact* - Microsoft Visual Studio Er i 


Activity2.nvact* X 
L 





Trace Application 
Collects events from the target application. The analysis session and data collection are stopped when the launched application exits. 
Trace Process Tree 


Collects events from the target application and all native child processes of the target application. The analysis session and data collection are not stopped 
when the launched application exits. The session and data collection must be stopped manually. 


) Profile CUDA Application 
Collects counters, statistics and derived values for given CUDA kernel launches. 
Profile CUDA Process Tree 


Collects counters, statistics and derived values for given CUDA kernel launches from the target application and all native child processes of the target 
application. The analysis session and data collection are not stopped when the launched application exits. The session and data collection must be stopped 
manually. 








Available Devices: Open Report on Stop 
GeForce 9400 (MCP79) Summary Page 


Show output from: | Nsight Analysis "a3 1333 [Gl 
Connection state changed to Connected. 
Physical devices detected: 
- GeForce 9400 (WDDM) 
Session state changed to Running. 
Application state changed to Suspended. 
Capture state changed to Started. 
Application state changed to Running. 


SIE E] Output 





3.17 选择 Launch 之 后 的 应 用 程序 


File Edit Debug Parallel Desktop Window Help 





: t e | A 本 bei €) © e ré =) @ | Current Folder: CAjunk MatlabMeetsCuda Hello 
` Shortcuts Z] Howto Add 7] What's New 
Current Folder Dn XJ LC 


L « Hello si Die Q- >> quarters = single (imread('eight.tif')):; 
>> kernel = single([1 2 1; 0 0 0; -1 -2 -1)); 


Name " »» H3 = conv2MexCuda (quarters, kernel); 


1?) thrustSum.obj 

|_| thrustSum.cu 

B thrustDemo.mexw64 

Cì) thrustDemo.cpp 

EN TestComplex.mexw64 

€) TestComplex.m 

Cì TestComplex.cpp 

É) test.m 

|_| hs_err_pid4424.log 

[£] helloMex.mexw64 

ei helloMex.cpp 

[A cufftDemo.mexw64 
Details 


Select a file to view details 


| 





3.18 运行 MATLAB 作为 分 析 应 用 程序 


Connection Status Application Control Capture Control 


= OS 


Available Devices: Open Report on Stop 
GeForce 9400 (MCP79) Summary Page 





3.19 Æ Visual Studio 内 完成 MATLAB 分 析 
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File Edit View Debug Team  Nsight Data Tools Architecture Test Analyze Window Help 


ge a-Ga@|4 aa|9-e¢-G-G]> lol 














RE SI 


rs Session Overview + Session Summary 
> Summary of session information related to the captured data. - Activity 


MATLAB.exe (Profile CUDA Application) 
Captured 0.04 seconds of data on 5/27/2013 10:13:04 PM 


Arguments: 
Working Dir 
Connection: localhost 








sp, CUDA Overview 
We» Summary of captured CUDA activity. 


1 kernel captured on 1 device. Please see the CUDA Launches page for the experiment results. 





Show output from: | Nsight Analysis ll Ali >| 
1 


8192 - 16383 III 


Info : Loaded c:\temp\MATLAB13@527_@@@\MATLAB13@527_@@@_Capture_@@2\MATLAB13@527_@@@_Capture_@@2.nvevents 
Info : Post-processing data... 

Info : Post-processed data in 2.31E-05 s 

Info : Resolving module information.... 

Info : Resolved module information in 2.3E-06 s. 


"m 


Ready 


MATLAB130527 000 Capture 002.nvreport - Microsoft Visual Studio 
File Edit View Debug Team  Nsight Data Tools Architecture Test Analyze Window Help 
Pidla-czdgis-aam-ce-g-3|» “| || -|| QU} cA se ED ES: 
MATLAB130527_000_...ture_002.nvreport X Sen 


Q — («onus ell. 
zi Filter Viewing: 1/1 














Drag a column header and drop it here to group by that column 


Module Function Start Time Duration Registers static Shared Dynamic Shared 
d , t tare II ; L f 
Function Name Y R Y : Y , Y Se Y Occupancy Y Y Memory per Y Memory per 
ID ID us us) per Thread : z : 
Block (bytes) Block (bytes) 


1 conv2MexCuda 3 1 358,797,071.623 |.32,895.616 3333% MH 9 48 


EES 


一 conv2MexCuda [CUDA Kernel] Start 358797071.623 
: End 358829967.239 
pu— Duration 32,896 us 


CUDA 


Context ID 1 





Show output from: | Nsight Analysis -| L3 |a 3 | SK [9l 


8192 - 16383 1 III 





Info : Loaded c:XtempXMATLAB130527 0004MATLAB130527 000 Capture 002X4MATLAB130527 000 Capture 002.nvevents in 0. 
Info : Post-processing data... 

Info : Post-processed data in 2.31E-@5 s 

Info : Resolving module information.... 

Info : Resolved module information in 2.3E-06 s. 





" 








图 3.21 Nsight 窗口 中 CUDA 内 核 函 数 细节 和 时 间 分 析 结 果 
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MATLAB130527 000 ...ture 002.nvreport X Een 








1 conv2MexCuda 1 358797071623 | 32895.616 3333% EE 


4- conv2MexCuda [CUDA Launch] 


4- [3] [CUDA Module] 5 C 
Executed Executed 
4 1 [Context] ! 2,895.61 0. 9 PREFER NONE FOUR BYTE, BANK SIZE (242, 308,1) (1,1, 1) 
GeForce 9400 [Device] 


b Experiment Results 





图 3.22 Nsight 窗口 中 CUDA 内 核 国 数 和 时 间 分 析 更 多 的 细节 信息 


返回 到 Activity 选项 卡 ， 并 在 Capture Control 对 话 框 中 单 击 Start 按钮 ， 可 以 
重复 这 个 分 析 过 程 〈 见 图 3.23)。 如 采 这 么 做 ， 你 需要 关闭 MATLAB 窗口 或 者 在 
Application Control 对 话 框 中 单 击 Kill 按钮 。 这 样 可 以 关闭 在 Visual Studio 中 进行 
分 析 的 整个 会 话 。 


Connection Status Application Control Capture Control 


e e e 


| 
Available Devices: | [V] Open Report on Stop 
GeForce 9400 (MCP79) | 














| Summary Page M | 


图 3.23 Nsight 中 Capture Control 


3.3.2 ”利用 NVIDIA Visual Profiler 进行 CUDA 分 析 


NVIDIA Visual Profiler 提供 了 丰富 的 图 形 用 户 环境 ， 可 以 给 出 CUDA 在 后 台 
工作 的 更 多 细节 。 除 了 提供 每 个 CUDA 函数 调用 的 时 间 分 析 外 ， 它 还 能 给 出 如 何 
调用 内 核 函 数 以 及 存储 器 的 使 用 情况 等 。 它 有 助 于 定位 瓶颈 可 能 出 现 的 位 置 ， 并 
详细 解释 如 何 调用 内 核 。 

本 节 将 展示 这 一 出 色 的 工具 如 何 与 MATLAB 和 CUDA 一 起 使 用 。NVIDIA 
Visual Profiler 可 以 在 CUDA 228 A ak FIRE COLA] 3.24)。 对 于 Windows 操作 系 
Zt, iB 4E C:\Program Files\NVIDIA GPU Computing Toolkit CUDA w5.0Vibnvvp 
目录 下 。 对 于 Mac OS X 操作 系统 ，NVIDIA Visual Profiler 的 位 置 如 图 3.25 所 示 。 
对 于 Linux 发 行 版 ， 位 于 /usr/local/cuda/libnvvp Hae F CLA 3.26)。 启 动 nvvp， 
会 先 得 到 一 个 空 窗 口 。 











|. « LocalDisk(C:) » Program Files » NVIDIA GPU Computing Toolkit » CUDA » v5.0 » libnvvp > 


File Edit View Tools Help 
Organize v 加 Open Y Burn New folder 


SX Favorites . - - 
RE Desktop t 
i$ Downloads ( 
$$ Dropbox 

T) Recent Places 


configuration features plugins .eclipseproduct artifacts.xml 


RE Desktop | | @ we 一 


eclipsec.exe epl-v10.html notice.html E nvvp.ini 


nwp.exe Date modified: 9/26/2012 12:46 AM 
Application Size: 42.5 KB 
Date created: 9/26/2012 12:46 AM 





3.24 NVIDIA Visual Profiler 和 CUDA 安装 位 置 


eoo C3] /Developer/NVIDIA/CUDA-S.0/libnvvp ” 





TT 


FAVORITES — Name ` - —X | Date Modified Size Kind 
=} All My Files J .eclipseproduct Sep 28, 2012 10:03 PM 59 bytes Document 
à |. artifacts.xml Sep 28, 2012 10:03 PM 40 KB XML Document 
© AirDrop > (3 configuration Apr 24, 2013 10:29 PM -- Folder 
Gad Desktop wi epl-v10.html Sep 28, 2012 10:03 PM 17 KB HTML...ument 
($1 youngmin... > | features Sep 28, 2012 10:03 PM -- Folder 
Kësse wi notice.html Sep 28, 2012 10:03 PM 9 KB HTML...ument 
A Applications — 
nvvp.app Apr 24, 2013 10:30 PM Application 
[51 Documents > @ p2 Sep 28, 2012 10:03 PM Folder 
ae Dropbox > (3 plugins Apr 24, 2013 10:29 PM Folder 
> LJ readme Apr 24, 2013 10:29 PM Folder 


SHARED 


File View Help 
SP? 




















| Bl Console | i Settings | 


Analyze Entire Application 
Analyze Kernel (select in timeli 


Stages 





Reset All Analyze , 








3.26 Linux 操作 系统 中 的 NVIDIA Visual Profiler 


54 


首先 ， 打 开 NVIDIA Visual Profiler. 45/5, 
话 ， 如 图 3.27 所 示 。 


KAS, BUE TUS es 


% NVIDIA Visual Profiler 
File View Help 


GPU 5 MATLAB 混合 


编程 





:器 


pe 





| Executable Properties 
' Set executable properties 





File: 
n Working directory: 
Arguments: 


Environment: 








ITE Analysis (To Details £3 





Enter executable file [required] 


Enter working : directory [optional] 


Enter command-line arguments 


Name Value 








Finish | 





3.27 NVIDIA Visual Profiler 中 的 New Session 


单 击 Browse fgh, 


在 主 荣 单 中 单 击 File >New Session 




















与 之 前 一 样 ， 选 择 MATLAB 可 执行 文件 ， 如 图 3.28 


所 示 。MATLAB 可 执行 文件 是 在 MATLAB 的 bin 安装 目录 下 ， 实 际 位 置 取决 


于 你 的 系统 架构 : 


EISES ， Rnl2s » bin» winst » | [és 


Organize v New folder 


RE Desktop 

39. Downloads 
$ Dropbox 

T) Recent Places 


RE Desktop 

a Libraries 

wj Homegroup 
B Mem 

i Computer 

ER Network 
"SR BROTHER 
JS COMPAQ 
jE DISKSTATION 
jE MEMY-PC 

GN Control Panel 


mM = ms 





vr 


Filename: MATLAB.exe 


F 


mcc.exe 


m, pcodeio.dll 


MATLAB.exe.con 
fig 


mclbase.dll 


m3i mi.dll 


matlab.ico 


mclil8nutil.dll 


MATLABStartupA 
ccelerator.exe 


e? L 
oC) 
- 


mclinstancedata. 
dil 





MathWorks Privil 
eged Operation.e 
xe 


et L 
Ms ^ ,t 
c 
matlabsystemblo 
ck.dll 


et. 
en 
"e 
Gel 


mclmecr.dll 


3.28 为 NVIDIA Visual Profiler 选择 MATLAB 可 执行 文件 
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e 对 于 Windows 64 位 操作 系统 

C:\Program Files\MATLAB\R2012a\bin\x64\MATLAB.exe. 

e 对 于 Windows 32 位 操作 系统 

C:\Program Files\MATLAB\R2012a\bin\win32\MATLAB.exe. 

e 对 于 Mac OS X 操作 系统 

/Applications/MATLAB R2012a.app/bin/maci64/MATLAB. 

e 对 于 Linux 操作 系统 

/usr/local/MATLAB/R2012a/bin/glnxa64/MATLAB. 

FET RARE MATLAB 可 执行 文件 后 ， 单 击 文件 选择 对 话 框 中 的 Open 
按钮 ， 回 到 Create New Session 对 话 框 〈( 见 图 3.29)。 单 击 Create New Session XJ i5 
框 中 的 Next 按钮 ， 然 后 选择 可 执行 文件 的 属性 〈 见 图 3.30)。 现 在 ， 所 有 选择 都 
ZNANE., Ér Finish 按钮 完成 创建 独 会 话 的 过 程 。 完 成 这 些 后 ，NVIDIA 
Visual Profiler 局 动 MATLAB 可 执行 程序 〈 见 图 3.31)。 然 后 ， 等 待 直 全 MATLAB 
XH]. 





& Create New Session 


Executable Properties Executable Properties 
Set executable properties Set executable properties 


File: C:\Program Files\MATLAB\R2012a\bin\win64\MATLAB.exe | Browse... Execution timeout: Enter maximum execution timeout in seconds [optional] seconds 
Working directory: Enter working directory [optional] Browse... [V] Start execution with profiling enabled 
Arguments: Enter command-line arguments [V] Enable concurrent kernel profiling 

Add 








Environment: Name Value [ Add | [V] Run analysis 
Delete 





" D E Properties ZZ. ~ PE Detail Graphs 














Rurining application to generate timeline. 











国 Anatysis Ce) Deas | [E] Console 13. Cu Settings 
CAPregram FileziNVIDIA GRU Computing Toolkit) CUDA eS Daminepred aee 





图 3.31 ZC NVIDIA Visual Profiler 中 启动 MATLAB 进行 分 析 


56 


GPU 5 MATLAB 混合 编程 


File Edit Wew Debug Pembe Decktop Window Help 
" WET E. A ri E] | & | Curent Folder. CAPragram Files MATLAESRZ01 2a 
|: Shortcuts E Howto Add H What's New 

B E Command vémdow 


lm. * D id g-| & >> 


Harme = 

|. trademarks Set 
| eëdlme- Dë 
Lo patenti Fei 
O B|censetut 

| installer inputit 
% anstall guide ja JP. pat 
A install guide.pdf 
Li install 


Details 


Select a file to view detail 





3.31 ZC NVIDIA Visual Profiler 中 启动 MATLAB 进行 分 析 〈 续 ) 
在 MATLAB 命令 窗口 中 ， 运 行 基于 CUDA 的 卷 积 程序 如 下 : 


>> quaters= (single)imread('eight.tif'); 
>> mask=single([1 2 1; 0 0 0; -1 -2 -1]); 
>> H32conv2MexCuda(quarters, mask); 


运行 这 些 指令 之 后 ， 关 闭 MATLAB 窗口 ， 分 析 器 将 开始 生成 分 析 数 据 。 此 时 





如 果 人 过 到 如 图 3.32 所 示 的 警告 信息 ， 可 以 通过 在 c-mex 函数 末尾 添加 
cudaDeviceReset( ) 语句 稍微 修改 代码 ， 以 确保 清除 所 有 分 析 数 据 。 





Unable to read the entire session timeline. The displayed timeline may be empty or 
incomplete because the application aborted or failed to flush profile data before 
exiting. The application should call cudaDeviceReset() before exiting to ensure that all 
profile data is flushed. 


| 


Lo ] 





3.32 ”应 用 程序 未 完成 警告 信息 





j'include "mex.h" 
jHinclude "conv2Mex.h" 


#include <cuda_runtime.h> 
void mexFunction(int nlhs, mxArray *plhsL], int nrhs, mxArray *prhs[ ]) 


{ 
float* out = (float*)mxGetData(plhs[0]); 


conv2Mex(image, out, numRows, numCols, kernel); 
cudaDeviceReset(); 


} 


并 以 一 个 附加 选项 重新 编译 c-mex: 


PIE 通过 耗 时 分 析 进 行 最 优 规划 S7 


>> mex conv2MexCuda.cpp conv2Mex.obj -1cudart -L"C:\Program Files\NVIDIA 
GPU Computing Toolkit\CUDA\v5.0\1ib\x64" -I"C:\Program Files\NVIDIA GPU 
Computing Toolkit\CUDA\v5.0\include" 


重新 运行 卷 积 程序 ， 并 关闭 MATLAB GU, NVIDIA Visual Profiler 会 显示 所 


有 信息 ， 如 图 3.33 fra, 


on $4 
| E 
= Proci 2965 
Fl Thread 3272 
Runtime API 
Dreeer APT 
Profiling Gverhead 
=! m] GeForce 9400 
=| Contes 1 [CUDA) 
T MemCpy top 
‘T MemCpy Dron 
H Compute 


°F 0.25€ [1] memet En 
= arama 
Stream 2 


| Annabesis 1 Cay Details DI Console Ca Settings 
Scope — Results 
pente Np 4, Low Compute Utilization [ 32.606 ms / 79.001 ms = 41.356] 
Analyzs Kemal [select in Gees The multiprocessors of ore or rore GPUs are mmeosthy idle. P | 
: 3 m à Low Memcpy/Compaute Cheerlap | 0 ns / 145.472 ps = (SI 
| j^ Reset Aull | | lt, Anahy zi The percentage af time when memcpy & being performed in parallel with compute is loss. bk 
Low Memcpg Tharoughput [ 6.5; Mi avg, Tor memcpy accounting for 3.5536 of all memcps tir | 
The memory copies are net fully using Ehe available bet £c disce bandwidth. Be | 











3.33 NVIDIA Visual Profiler 分 析 结 果 窗 口 


你 可 以 对 每 个 CUDA 函数 的 耗 时 、GPU 占用 情况 等 有 很 好 的 了 解 。 单 击 底部 
的 Details 选项 上 不， 可 以 看 到 网 格 和 线程 其 中 线程 的 数量 ， 如 网 3.34 Drs. 


(Ta Analysis Toy Details x WC Console| ai Settings | eae) 
Name Start Time Duration Grid Size Block Size Regs Static SMem 


Memcpy HtoD [sync] 35.143 ms 63.072 us n/a n/a n/a n/a j D 44 GB/s 
Memcpy HtoD [sync] 35.345 ms 5.184 us n/a n/a n/a n/a / - 6.62 MB/s 
memset (0) 35.357 ms 54,592 us n/a n/a n/a n/a 2 5.09 GB/s 





conv2MexCudaf(float*, float*, i... 35.415 ms 32.552 ms [242,308,1] [1,1,1] 9 48 n/a 
Memcpy DtoH [sync] 67.968 ms 77.216 us n/a n/a n/a n/a d - 3.6 GB/s 


图 3.34 NVIDIA Visual Profiler Details 选项 卡 下 的 时 间 信 息 


3.4 emey 调试 器 的 环境 设置 


因为 MATLAB 只 提供 了 m 文件 编译 器 和 与 m 文件 相关 的 工具 ， 为 了 在 ce- 
mex 文件 中 调试 C/C++ 代码 ， 需 要 使 用 不 同 于 MATLAB 的 调试 器 。 用 其 他 调试 
器 来 调试 与 MATLAB 中 m 文件 相关 的 c-mex 文件 也 十 分 容易 。 在 之 前 章节 中 ， 
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我 们 使 用 conv2d3x3.cpp 文件 ， 这 个 由 convQuarterImageCmex.m 调用 的 C++ 文件 
如 下 : 


The conv2d3 x3.cpp File 


f'include "mex.h" 
jHinclude "conv2d3x3.h" 


void conv2d3x3(float* src, float* dst, int numRows, int numCols, float* 
mask) 
{ 


int boundCol = numCols- 1; 
int boundRow = numRows — 1; 


for (int c = 1; c < boundCol ; c++) 
{ 
for (int r=1; r < boundRow—1; r++) 
{ 
int dstIndex = c * numRows + r; 
int mskIndex = 8; 
for (int kc = -1; kc < 2; kc++) 
{ 
int srcIndex = (c+ kc) * numRows + r; 
for (int kr2—1; kr < 2; kr++) 
dstLdstIndex]+ = maskLmskIndex——] * srcLsrcIndex- kr]; 


j 
} 


void mexFunction(int nlhs, mxArray *plhs[], int nrhs, mxArray *prhsL]) 
{ 


if (nrhs ! 2 2) 
mexErrMsgTxt("Invaid number of input arguments"); 


if (nihs ! 2 1) 
mexErrMsgTxt("Invalid number of outputs"); 


if CImxIsSingle(prhs[0]) && !ImxIsSingle(prhs[1])) 
mexErrMsgTxt("input image and mask type must be single"); 


float* image = (float*)mxGetData(prhs[0]); 
float* mask 2 (float*)mxGetData(prhs[1]); 


int numRows = mxGetM(prhs[0]); 
int numCols = mxGetN(prhs[0]); 
int numKRows = mxGetM(prhs[1]); 


Z^ 
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int numKCols = mxGetN(prhs[11); 


if (numKRows ! = 3 || numKCols ! = 3) 
mexErrMsgTxt("Invalid mask size. It must be 3x3"); 


plhs[0] = mxCreateNumericMatrix(numRows, numCols, mxSINGLE CLASS, 
mxREAL ) ; 


float* out = (float*)mxGetData(plhs[0]); 


conv2d3x3( image, out, numRows, numCols, mask); 
j 
The convQuarterImageCmex.m File 


quarters = imread('eight.tif'); 
imagesc(quarters); 
colormap(gray); 


mask-2[121;000;-1-2-1J]; 
singleq-single(quarters); 
single k 2 single(mask); 


H = conv2d3x3(single_q, single k); %CallC-Mex file here 
figure; 


imagesc(H); 
colormap(gray); 


为 了 调试 与 convQuarterImageCmex.m 文件 相关 的 conv2d3x3.cpp c-mex X 
件 ， 需 要 利用 -g 选项 在 MATLAB 命令 窗口 中 编译 conv2d3x3.cpp 文件 : 





>> mex —g conv2d3 X 3.cpp 


成 功 后 ， 将 在 相同 的 目录 下 生成 一 个 新 的 文件 conv2d3x3.mexw64 (或 者 
conv2d3x3.mexw32 )。 人 然后， 打开 Visual Studio， 同 时 保持 MATLAB 会 话 ， 并 在 
Tools 荣 单 中 选择 Attach to Process... CIL E] 3.35). 

在 Attach to Process 工具 箱 中 ， 可 以 看 到 计算 机 上 正在 运行 的 可 用 进程 〈 见 
图 3.360. WAR] MAILAB， 残 无 法 在 可 用 进程 窗口 中 找到 MATLAB.exe. 3X 
择 MATLAB.exe 并 单 击 Attach 按钮 。 然 后 ，Visual Studio 会 出 现 一 个 项 部 高 有 
Solution! (Running) 的 空 窗口 ， 如 图 3.37 所 示 。 在 Visual Studio 中 ， 通 过 File 
3€. F5 Open 下 的 File 选项 打开 conv2d3x3.cpp c-mex WEAF (ILEI 3.38)。 接 下 
来 ， 在 你 希望 的 一 行 单 击 右键 ， 设 置 一 个 断 点 〈 见 图 3.39)。 然 后 ， 可 以 看 到 一 
个 未 激活 的 断 点 和 警告 消息 ， 可 以 忽略 该 消息 ， 如 图 3.40 所 示 。 一 旦 正确 设置 
了 汤 点 ， 你 就 可 以 使 用 Debug 采 蛙 下 的 所 有 功能 ， 而 没有 其 他 限制 ， 如 图 3.41 
FI. 
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File Edit View Debug Team Data Tools Architecture Test Analyze Window Help 
Eo- > Co il dX a4 AttachtoProcess... Ctrl+Alt+P 


| ? 
Solution Explorer - 2x Start Pag "b Connect to Database... 
L Connect to Server... 


"e Add SharePoint Connection... 


= 


Code Snippets Manager... Ctrl+K Ctri+B 

Choose Toolbox Items... 

Add-in Manager... 

Macros D 
E Extension Manager... 

Create GUID 

Dotfuscator Software Services 

Error Lookup 

ATL/MFC Trace Tool 

ILDasm 

Spy++ 


Visual Studio Command Prompt 


2 Uk WCE Service Configuration Editor 
External Tools... 

Import and Export Settings... 
Customize... 

Options... 





图 3.35 Microsoft Visual Studio 调试 器 中 Attach to Process... f. 








G "w 
| Attach to 
Transport: Default = | 
Qualifier: JUNG-PC ~ Browse... 


Transport Information 
The default transport lets you select processes on this computer or a remote computer running the Microsoft Visual Studio Remote Debugging 
Monitor (MSVSMON.EXE). 


Attach to: Automatic: Native code 


Ayailable Processes 














Process ID Title Type User Name Session d 

iusb3mon.exe 3732 x86 Jung-PCUung 1 

LManager.exe 3708 x86 Jung-PCUung 1 

LMworker.exe 4040 x86 Jung-PCVung [admi... 1 

x64 Jung-PCUung 1 

MMDx04Fx.exe x64 Jung-PCUung 1 

notepad+ «.exe 5016 C:\Users\Jung\Documents\Books\Chapters\Ch... x86 Jung-PCUung 1 

pceed.exe 3696 Managed (v2... Jung-PCUung 1 D 

PmmUpdate.exe 5808 x64 Jung-PCVUung 1 J 

POWERPNT.EXE 2252 x86 Jung-PCUung 1 

RAVBg64.exe 2416 x64 Jung-PCUung 1 3 
LL AV ai an 223^ £4 ee PO usnm A = 
[E] Show processes from all users F] Show processes in all sessions Refresh 








图 3.36 4 MATLAB N JHE] Microsoft Visual Studio 调试 器 中 


File Edit View Project Debug Team Data Tools Architecture Test Analyze Window Help 
Bid u-cudisams?o-e- 3l» 

i> na alo (3| Ql He «l7. 

È Process: Thread: VC W Stack Frame 


Performance Explorer v 


d Solution 'Solution1' (0 pre 


~ 4X Call Stack 


xc. (Thr... EB Mo... Ji Wa $2 Call Stack LATE Melee gi Data Coll 





图 3.37 Microsoft Visual Studio hAg Piir A Solution! (Running) hy ^r ff A 
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File Edit View Project Debug Team Data Tools Architecture Test Analyze Window 


New > FI 
Open ^| Æ Project/Solution... Ctrl+Shift+O 
Close 9$) Team Project... 
SJ Close Solution Q3 File... Ctrl+O 
Save Solution! Ctrl+S Convert... 
Save Solution] As... 
Save All Ctrl« Shift« S 


Export Template... 
Source Control ^ 


d Page Setup... 


$ Print... Ctri+P 
Recent Files > 
Recent Projects and Solutions » 
Exit Alt+F4 





图 3.38 在 Microsoft Visual Studio Jis FFT JT IRA RH 





ça) Create Unit Tests... WW Stack Frame: 


A Go To Definition F12 


i Process: 













Solution Explorer conv2d3x3.« 





Kä (Unknown 1 Go To Declaration Ctrl« Alt« F12 
d Solution 'Solutionl' (0 pre Find All References 
[à View Call Hierarchy Ctrl+K, Ctri« T 


Go To Header File 


Breakpoint > | @ Insert Breakpoint 
63 Add Watch Insert Tracepoint 
63 QuickWatch Shift+F9 ? 





Pin To Source 
Show Next Statement Alt« Num * 
CH Run To Cursor Ctrl« F10 


Go To Disassembly 


& Cut Ctrl+X must be 3x3"); 
43 Copy Ctrl+C 
A Paste Ctrl+V numCols, mxSINGLE CLASS, mxREAL); 


Outlining 





ernel); 












if (nlhs != 1) 
mexErrMsgTxt("Invalid number of outputs"); 


if (!mxIsSingle(prhs[0]) && !mxIsSingle(prhs[1])) 
mexErrMsgTxt("input image and kernel type must be single"); 


float" image = (float*)mxGetData(prhs[0]); 
float* kernel = (float*)mxGetData(prhs[1]); 


int numRows = mxGetM(prhs[0]); 
int numCols = mxGetN(prhs[0]); 
int numKRows = mxGetM(prhs[1]); 
int numKCols = mxGetN(prhs[1]); 


if (numKRows != 3 || numKCols != 3) 
mexErrMsgTxt("Invalid kernel size. It must be 3x3"); 


plhs[0] = mxCreateNumericMatrix(numRows, numCols, mxSINGLE CLASS, mxREAL); 
float* out = (float")mxGetData(plhs[0]); 


| conv2d3x3(image, out, numRows, numCols, kernel 
At conv2d3x3.cpp, line 51 ('mexFunction(int nlhs mxArray *plhs[], int nrhs mxArray *prhs[])', line 25) 


The breakpoint will not currently be hit. No symbols have been loaded for this document. 


图 3.40 ”激活 的 断 点 


H 


合 编程 


62 GPU 5 MATLAB JE 
































| Debug Team Data Tools Architecture Test Analyze Window Help 
Windows > | TĒ Breakpoints Alt+F9 [SU G3 032 
| P Continue FS E) Output 
A Break All Ctrl+ Alt« Break cj Parallel Tasks Ctrl« Shift+D, K 
à Stop Debugging Shift+ F5 a Parallel Stacks Ctrl+Shift+D, S 
VA Start Performance Analysis Alt+F2 Watch » | gg. watchl Ctrle Alte W, 1 
h All 7 
T Solution 'Solutionl' (0 eg E) Autos Ctrls Alte V, A Z Watch2 CtrleAlt+W, 2 
e Z Locals Alt«4 E) Watch?  CtrisAlt+W,3 
J Restart Ctrl- Shift« F5 E Immediate Ctrl Alt«l a Watch4 Ctrl Alte W, 4 
E) erum. Process... CH Call Stack Alte7 
Exceptions... CtrleAlt+E ij Threads Ctris Alts H 
"E Step Into HI "Si Modules CtrleAlt+U 
„T Step Over F10 iZ IntelliTrace Events 
3 Step Out Shift+ F11 & IntelliTrace Calls 
63 QuickWatch... Shift+F9 GF Processes CtrleShift+Alt+P 
Toggle Breakpoint F9 Memory > 
New Breakpoint > Z Disassembly Alt+8 
$9 Delete All Breakpoints Ctrl« Shift« F9 习 Registers AlteS 
O Disable All Breakpoints 
umRows, numCols, mxSINGLE CLASS, mxREAL); 
IntelliTrace » [ns(0]); 


Clear All DataTips 


ols, kernel); 


Export DataTips ... 
Import DataTips ... 


Options and Settings... 


图 3.41 Microsoft Visual Studio 调试 器 的 各 种 功能 





现在 ， 回 到 MATLAB. Æ MATLAB 命令 窗口 中 运行 调用 conv2d3x3.cpp c- 
mex 文件 的 convQuarterImageCmex.m 文件 ， 如 图 3.42 所 示 。 然 后 ，Visual Studio 





的 调试 模式 自动 激活 ， 如 图 3.43 所 示 ， 程 序 会 运行 到 设置 的 断 点 处 暂停 。 
Tw Te eaa 


File Edit Debug Parallel Desktop Window Help 
ODS ALDA 9 C | de rg E) | Q | Current Folder: CA\uUsers\ung\Documents\Books\Chapters\Ch3\codes + LJ 








Shortcuts Al Howto Add Al What's New 








Curren... '* O ^ X| Command Window ^ D? X| Workspace apax 
«c. v2 » ($1) New to MATLAB? Watch this Video, see Demos, or read Getting Started. x a] m Zei BB Sel... Y 
Name ^ »» mex -g conv2d3x3.cpp Name ^ Value 
ei conv2d3x3.cpp >> convQuarterImageCmex 
Hl conv2d3x3.h fs 


B) conv2d3x3.mex... 
ES conv2d3x3.mex... 
ei conv2d3x3cuda.... 
|_| conv2d3x3cuda.... | 


342 运行 MATLAB 主 模块 进行 调试 


Be Et Yen fee Pe e Ze e Tet ree EE EN ] 
Salz A Boal BI .GIP al = = [SIR Gs a ka Bl Bi :-. 


ORL S ZIPS Hs aaQlir uaa] > O^ Alpe *I3-. 
$ Process: | [4032] MATLAB.exe ~| Thread: | [4656] Main Thread -| V^ W Stack Frame: | conv2d3x3.mexwó4tmexFunction(nt nlhs, ~| =| 























al conv2d3x3.cpp X 


bai ee 


int numCols = mxGetN(prhs[0]); 
int numKRows = mxGetM(prhs[1]); 
int numKCols = mxGetN(prhs[1]); 


if (numKRows != 3 || numKCols != 3) 
mexErrMsgTxt("Invalid kernel size. It must be 3x3"); 


plhs[@] = mxCreateNumericMatrix(numRows, numCols, mxSINGLE CLASS, mxREAL); 
float* out = (float")mxGetData(plhs[0]); 


conv2d3x3(image, out, numRows, numCols, kernel); 


v QX Call Stack 

Name Value Name Lang ^ 
田 $9 image 0x000000006 e633<80 " © conv2d33.mexwé4!mexFunction(int nlhs mxArray_tag * * plhs, int nrhs mx/ C«« |=| 
© kernel | 0:000000006e3d2dc0 | float * libmex.dii00000000564301630 | 

9 mxGetData 0x000007fefa9e12dc mxGetData | voi | [Frames below may be incorrect and/or missing, no symbols loaded for libr 

$9 numCols 1308 fi | libmex.dil000000005e42fce20 | 

9 numRows [242 [i | ibmecdin000000005e42fe580 

9 out 0x000000006 €67 c960 | . | m. dispatcher.dii000000005e36b0460) 

a plhs 0100000000041 d7 cfü | m. dispatcher. dit¥000000005«36b93¢ 

9 plhs[0] 0x000000000cb58f38 


[m "interpreter. 38000000005e4bcf97 
m_interpreter.dil!000000005e42483() 


=) Autos LETT Bites UE ET 








图 3.43 ”运行 MATLAB 主 模块 后 目 动 激活 的 调试 模式 
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从 现在 开始 ， 你 可 以 上 自由 地 使 用 Visual Studio "PIE Xe. FRI HI 

Step into ye Step over (F10) 来 跟踪 变量 变化 。 图 3.44 中 的 Autos 框 展 示 了 一 

个 范例 ， 在 这 个 范例 中 ， 可 以 通过 操作 Step into (F11) 和 Step over (下 10) 来 观察 变 
量 的 值 。 


File Edit View Project Debug Team Data Tools Architecture Test Analyze Window Help 

A: d-uigisaaleo-e--3l» Ia aiies ie dr 8326 OW hE 
Qepe mlela AeA a |9 f| Ql He @/Q-. 

Í Process: | [4032] MATLAB.exe ~| Thread: | [4656] Main Thread -| V^ \W Stack Frame: | conv2d3x3.mexw64!conv2d3x3(float ` src, -| = 


Solution Explorer MK: conv2d33.cpp x | cpp X 
F pem SEE 
d Solution 'Solutionl' (0 pre 习 #include "mex.h" 
#include "conv2d3x3.h" 




















- void conv2d3x3(float* src, float* dst, int numRows, int numCols, float* kernel) 


{ 
int boundCol = numCols - 1; 


int boundRow = numRows - 1; 


for (int c = 1; c « boundCol; c++) 





for (int r = 1; r < boundRow - 1; r++) 


int dstIndex = c * numRows + r; 
int kerIndex = 8; 
for (int kc = -1; kc < 2; kc++) 


int <rrTnriav = (c A kech * nimRawe A rs 


» HX | Call Stack 
Name ^ Name Lanc ^ 
9c | L 2| conv2d3x3.mexwé4!conv2d3:x3(float * src, float * dst, int numRows, int numC C++ EJ 
9 dstindex | | cona: Pe eb nlhs, mxArray tag " * plhs, int nrhs, md C++ 
9 kerlndex | | 
$9 numRows i = below may be incorrect and/or missing, no symbols loaded for libm 
Or | fi libmex.dil!000000005e4 2fce2() 
librmmex.dil!000000005 e42fe58 () 
| m_dispatcher.dll!000000005e36b046() 
m dispatcher.dii000000005e36b93c() 
m, interpreter.dii000000005e4 a4f1b() 


BA Locals E Threads EB Modules HA Watch 1 e Call Stack IL TESTEN "ef 





图 3.44 wA MATLAB DI Microsoft Visual Studio 调试 器 下 的 调试 工具 示例 
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了 解 使 用 的 工具 ， 可 以 更 好 地 利用 它 ， 最 大 化 发 挥 其 功能 。 在 编写 c-mex K 
数 时 ， 必 须 和 准确 了 解数 据 在 MATLAB 和 c-mex 函数 之 间 的 传递 过 程 。 如 果 不 ;准确 
了 解 这 一 过 程 ， 很 可 能 日 日 浪费 宝贵 的 时 间 。 同 样 ， 在 CUDA 中 ， 如 果 很 好 地 了 
解 GPU 知识 ， 束 可 以 最 大 化 发 挥 CUDA 的 功能 。 

本 章 中 ， 你 可 以 了 解 到 以 下 内 容 : 

€ c-mex 中 的 存储 布局 。 

e GPU 便 件 基础 知识 。 

@ CUDA 中 的 线程 分 组 。 




















4.2 emex 中 的 存储 布局 


理解 输入 数据 的 存储 布局 对 于 c-mex 编程 的 成 功 全 天 重要 。 当 和 输入 数组 传递 
给 子 例 行 程序 mexFunction 时 ， 会 得 到 一 个 输入 实 参数 组 ， 作 为 形 参 prhs。 每 个 输 
入 实 参 都 是 mxArray 的 一 个 指针 。 为 简单 起 见 ， 和 暂时 只 重点 关注 二 维 数组 。 举 个 
例子 ， 使 用 下 面 的 MATLAB 预 处 理 安 和 应 用 程序 编程 接口 (Application Program 
Interface, APD 来 获得 数组 信息 : 

















mxlIsSingle 人 确定 mx Array 数据 是 否 表 示 为 单 精 度 浮 点 数 
mxGetM 获得 行 的 数量 

mxGetN 获得 列 的 数量 

mxGetData 获得 数据 的 指针 








一 旦 得 到 了 数据 指针 后 ， 将 访 指 针 用 作 剩 余部 分 的 普通 C/C++ 指针 。 因 此 ， 
我 们 必须 明确 地 知道 MATLAB 数据 在 存储 器 空间 是 如 何 存储 的 。 
4224 dX 


iM, FORTRAN 语言 习惯 ， 所 有 MATLAB 数据 都 是 按 列 的 顺序 存储 的 。 在 按 
列 顺序 中 ， 每 一 列 和 其 他 列 都 是 在 存储 位 置 连续 依次 存储 的 。 为 了 对 按 列 顺序 存 
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f TIR, ARIS PI 3x4m PE: 





L 2 3 4 
4-5 6 7 8 
9 10 11 12 





TEE SR IRR. BES URS FF AAN T: 


数据 偏 移 0 1 2 3 4 5 6 7 S8 9 10 11 
数据 1 5 9 2 6 103 7 11 4 8 12 


在 MATLAB fip & rr, S Ad FRIS: 


A=(1234; 5678; 91011 12] 


在 c-mex 水 数 中 ， 这 个 矩阵 作为 prhs 中 的 一 个 实 参 进行 传递 。 假 设 这 是 第 一 
个 输入 元 素 ， 我 们 把 这 个 矩阵 作为 子 例 行 程 序 的 一 块 单 精度 数据 ， 然 后 会 得 到 如 
PARET: 

float* ptr (float*)mxGetData(prhs[01); 

在 C/C++ 语 言 中 ， 索 引 从 零 开 始 ?， 使 用 指针 运算 可 以 访问 每 一 个 元 素 。 为 了 
得 到 数值 10， 可 以 采用 如 下 语句 : 

ptrs] 

or 

*(ptr+5) 

通常 ， 为 了 访问 MXN 二 维和 矩阵 中 第 m 行 第 n 列 的 元 素 ， 采 用 如 下 方式 计算 
指针 偏 移 量 和 进行 访问 : 

ptrL (n*M)+m] 

or 

*(ptr+(n*M) +m) 

对 于 MXNXP 的 三 维 数 组 ， 按 如 下 方式 访问 第 m 1158 n 列 第 p RIIA: 

ptrL (p*N+n) *M+m ] 

or 

*(ptr+((p*N+n) *M4+m)) 

如 你 所 见 ， 当 顺序 访问 存储 器 中 的 数据 时 ， 行 指针 比 列 指针 变化 更 快 。 

下 面 的 范例 展示 了 c-mex 函数 中 二 维 数 组 的 存储 位 置 。 一 个 简单 数组 传递 给 
c-mex PRA, TARE ASE BARRAS, HE MATLAB 命令 窗口 中 打印 每 个 
数组 元 系 和 筷 们 相应 的 内 存 地 址 。 























© 注意 : 在 MATLAB 中 ， 和 矩阵 的 索引 是 从 1 开始 ， 然 而 在 C/C++ 中 则 是 从 0 开始 。 
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X] T URS SCR ASTU s 
// column major order single.cpp 
jHnclude "mex.h" 


void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray 
*prhs[ 1) 
{ 
if (ImxIsSingle(prhs[0])) 
mexErrMsgTxt("input vector data type must be single"); 


int rows = (int)mxGetM(prhs[0]); 
int cols =(int)mxGetN(prhs[0]); 
int totalElements =rows * cols; 


float* A- (float*)mxGetData(prhs[0]); 


for (int i=0; 1<totalElements; ++i) 
mexPrintf("%f at Zp\n", ALi], A iD; 
} 


>> mex column_major_order_single.cpp 
>> column major order single(single([1234; 5678; 9101112])) 
.000000 at 0x128406240 

.000000 at 0x128406244 

.000000 at 0x128406248 

.000000 at 0x12840624c 

.000000 at 0x128406250 

.000000 at 0x128406254 

.000000 at 0x128406258 

.000000 at 0x12840625c 

.000000 at 0x128406260 

.000000 at 0x128406264 

.000000 at 0x128406268 

.000000 at 0x12840626c 


《你 可 以 用 范例 column major single.m 进行 测试 。) 
注意 ， 每 个 数据 元 素 占 用 4 宇 站 ， 这 是 典型 的 单 精度 数据 字 节 大 小 。 
下 面 的 范例 给 出 了 单字 下 数据 闫 型 ， 即 8 位 无 符号 整数 : 


// column major order unit8.cpp 


— | 一 
E GA GJ GA ODM O OF 


LA 
n5 CO 











4#Finclude "mex.h" 


void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray *prhs[ ]) 
{ 
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if (ImxIsUint8(prhs[0])) 
mexErrMsgTxt("input vector data type must be single"); 


int rows = (int)mxGetM(prhs[0]) ; 
int cols 2 (int)mxGetN(prhs[0]); 
int totalElements = rows * cols; 


unsigned char* A= (unsigned char*)mxGetData(prhs[0]); 


for (int i20; i«totalElements; ++i) 
mexPrintf("Zf at Zp\n", ALi], Ac 12; 
} 


>> mex column_major_order_uint8.cpp 
>> column major order uint8(uint8([1234;5678; 91011 12])) 
1 at 0x128408960 

at 0x128408961 

at 0x128408962 

at 0x128408963 

at 0x128408964 

at 0x128408965 

at 0x128408966 

at 0x128408967 

at 0x128408968 

at 0x128408969 

at 0x12840896a 

at 0x12840896b 


《你 可 以 用 范例 column major uint8.m 进行 测试 。) 

可 能 你 会 注意 到 ， 对 于 单 精 度数 据 闫 型， 内存 地 址 一 次 增加 4 字 节 ， 而 对 于 8 
位 无 符号 整数 ， 内 存 地 址 则 一 次 增加 工 字 下 。 
422 ” 按 行 存储 

按 行 顺序 存储 恰好 与 按 列 顺序 存储 相反 。 考 虑 相同 的 范例 矩阵 : 


a-[1234;5678;91011 12] 


LA 


man 
PO co ZS kA GJ GA OO On Pä O Ol 


LA 





数据 偏 移 0 1 2 3 4 5 6 7 8 9 10 1 





数据  — 1 2 3 4 5 6 7 8 9 10 11 m 
数值 10 以 如 下 方式 访问 : 
ptr[9] 
or 
*(ptr+9) 





对 于 二 维 数 组 ，MXN 和 矩阵 中 第 闵行 第 友 列 的 元 素 以 如 下 方式 访问 : 
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ptrL (m*N)+n] 
or 
*(ptr+(m*N) +n) 


PAE, MX NX P HEPERI m T98 n 列 第 p 页 的 元 素 以 如 下 方式 访问 : 


ptrL (p*M+m)*N+n ] 
or 
*(ptr+(p*M+m) *N+n) 


这 里 ， 列 指针 比 行 指针 变化 更 快 。 

当 混 合 使 用 C/C++ 和 MATLAB 时 ， 我 们 要 特别 注意 ， 输 入 数据 是 如 何 存储 
和 索引 的 。 例 如 ， 许 多 C/C++ 图 像 库 是 按 行 顺 序 存 储 图 像 ， 而 MATLAB 中 传送 
来 的 数据 则 是 按 列 顺序 存储 的 。 在 CUDA 中 ， 访 问 线程 是 基于 按 行 顺序 的 。 另 
外 一 个 非常 重要 ， 必 须 牢 记 的 就 是 索引 方案 。C/C++ 是 以 零 为 基准 进行 索引 ， 而 
MATLAB 访问 数组 则 是 以 1 为 基准 进行 索引 。 


4.2.3 c-mex 中 复数 的 存储 布局 


我 们 会 经 党 在 很 多 地 方 过 到 复数 。 尤 其 是 在 图 像 和 信号 处 理 中 ， 数 据 可 能 是 
复数 ， 也 可 能 是 实数 ， 或 者 两 者 兼 有 。 通 过 算法 可 以 将 实数 变 成 复数 ， 或 者 将 复 
数 变 成 实数 。 因 此 ， 当 在 c-mex 函数 中 接收 来 日 MATLAB 的 数据 ， 或 者 传送 数据 
给 MATLAB 时 ， 要 确保 了 解 MATLAB 在 存储 器 空间 中 是 如 何 打 包 复 数 的 。 

当 在 存储 器 中 存储 复数 时 ， 可 以 先 放 实 数 部 分 再 放 虚 数 部 分 ， 或 者 反 过 来 。 
通常 ， 先 存 复 数 的 实数 部 分 。 例 如 ， 复 数 C=3+7i 存储 如 下 : 

数据 偏 移 0 1 
数据 3 


接 下 来 快速 验证 一 下 ，MATLAB 如 何 存储 复数 : 
// TestComplexl.cpp 


























#include "mex.h" 


void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray *prhs[ ]) 
{ 
if (!mxIsComplex(prhs[0])) 
mexErrMsgTxt("input data must be complex"); 
if (ImxIsSingle(prhs[0])) 
mexErrMsgTxt("input data must be single"); 


float* pReal = (float*)mxGetPr(prhs[0]); 
float* pImag = (float*)mxGetPi(prhs[0]); 


mexPrintf( "4p: %f\n", pReal, *pReal); 
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mexPrintf("%p: %f\n", pImag, *pImag); 
} 


编译 这 一 段 c-mex 测试 代码 ， 并 用 样本 数 运行 这 段 代 码 : 
>> mex TestComplexl.cpp 
>> TestComplexl(single(4+571)) 


000000006F2FBB80: 4.000000 
000000006F2FC940: 5.000000 


《你 可 以 用 范例 TestComplex first.m 进行 测试 。) 

样本 数 的 实 部 存储 在 0x6F2FBB80， 而 虚 部 存储 在 0x6F2FC940。 如 你 所 见 ， 它 
们 彼此 并 不 相 邻 。 事 实 上 ，MATILAB 是 在 分 开 的 两 个 数组 中 存储 复数 的 实 部 和 虚 
部 。 因 此 ，MATLAB 提供 了 两 个 函数 来 访问 这 些 数 组 ，mxGetPr(.…) 提供 访问 实数 数 
组 的 指针 ，mxGetPi(…) 提供 访问 虚数 数组 的 指针 。 对 测试 程序 做 一 点 修改 ， 观 察 当 数 
据 是 一 组 复数 时 会 发 生 什么 情况 : 


#include "mex.h" 











void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray *prhs[ J) 
{ 
if (ImxIsComplex(prhs[0])) 
mexErrMsgTxt(" input data must be complex"); 
if (ImxIsSingle(prhsL[0])) 
mexErrMsgTxt("input data must be single"); 


float* pReal = (float*)mxGetPr(prhs[0]):; 
float* pImag- (float*)mxGetPi(prhs[0]); 


int m=(int)mxGetM(prhs[0]); 
int n=(int)mxGetN(prhsL0]); 
int numE lems = (m >= n) ? m:n; 


for (int i=0; i «numElems; ++i, ++pReal, ++plmag) 
{ 
mexPrintf( "Real =%f @%p\t", *pReal, pReal t i); 
mexPrintf("Imag=%f @Zp\n", *pImag, pImag-c i); 











虚 部 数组 位 于 0X 6F60A420 





图 4.1 c-mex 中 的 复数 数组 
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当 编 译 和 运行 样本 复数 数组 时 ， 可 以 得 到 如 下 数据 : 


>> mex TestComplex.cpp 

>> TestComplex(single(L1+101, 2+20i1, 3+30i1, 4+40i])) 

Real =1.000000 @000000006F60A4A0 Imag=10.000000 @000000006F60A420 
Real =2.000000 89000000006F60A4A48 Imag=20.000000 @000000006F60A428 
Real =3.000000 @000000006F60A4B0 Imag =30.000000 @000000006F60A430 
Real =4.000000 @000000006F60A4B8 Imag=40.000000 @000000006F60A438 


《你 可 以 用 范例 TestComplex second m 进行 测试 ) 

可 以 清楚 地 看 到 ， 存 储 复数 的 实 部 和 虚 部 为 两 个 不 同 的 数组 ， 如 图 4.1 Bras. 

如 末 输 入 数据 为 二 维 复数 ， 会 收 到 两 个 二 维 数组 : 一 个 实 部 的 二 维 数组 和 一 
个 虚 部 的 二 维 数组 。 需 牢记 ， 它 们 是 按 列 顺序 存储 的 。 








4.3 ”逻辑 编程 模型 


当 编 写 CUDA 程序 Ceu 文件 ) 时 ， 对 于 需要 运行 在 GPU 上 的 函数 ， 我 们 采 
用 特殊 的 语法 <<<...>>> 。 第 2 童 有 一 个 范例 AddVectors.cu. 








// AddVectors.cu in Chapter 2 with C-mex 


#include "AddVectors.h" 


. global void addVectorsKernel(float* A, float* B, float* C, int size) 
{ 
int i-blockIdx.x; 
if (i >= size) 
return; 


CLiJ=ALiJ+BLi]; 


Code for the Host void addVectors(float* A, float* B, float* C, int size) 


(CPU) { 


float *devPtrA=0, *devPtrB=0, *devPtrC20; 


cudaMalloc(&devPtrA, sizeof(float) * size); 
cudaMalloc(&devPtrB, sizeof(float) * size); 
cudaMalloc(&devPtrC, sizeof(float) * size); 


cudaMemcpy(devPtrA, A, sizeof(float) * size, cudaMemcpyHostToDevice); 
cudaMemcpy(devPtrB, B, sizeof(float) * size, cudaMemcpyHostToDevice); 





Calling kernel addVectorsKernel <<< size, 1>>>(devPtrA, devPtrB, devPtrC, size); 


cudaMemcpy(C, devPtrC, sizeof(float) * size, cudaMemcpyDeviceToHost); 
cudaFree(devPtrA); 


cudaFree(devPtrB); 
cudaFree(devPtrC); 
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这 部 分 运行 在 GPU 上 的 代码 称 为 核 函数 (kernel)。 当 定义 核 函数 时 ， 必 须 明 
确 指定 核 函 数 运 行 所 需 的 线程 总 数 。 大 致 说 来 ， 相 同 的 核 函 数 将 在 多 个 线程 上 并 
行 运 行 。 所 以 必须 告诉 GPU 需要 多 少 个 线程 并 行 运 行 。 根 据 需 要 并 行 运算 的 工作 
量 ， 估 计 上 所 需 线程 数 。 这 些 线程 在 饮 辑 上 组 成 线程 块 ， 一 组 线程 块 组 成 线程 网 
格 。 这 一 逻辑 分 组 信息 置 于 <<<.…>>> 中 传递 给 GPU: 








Kernel Function «««gridSize, blockSize >>> (parameterl, parameterz,.... ) 


线程 网 格 的 尺寸 由 线程 块 的 数量 指定 ， 线 程 块 的 尺寸 由 线程 的 数量 指定 。 例 
如 ， 如 果 线 程 网 格 尺 寸 是 10， 一 个 线程 网 格 中 就 有 10 个 线程 块 。 如 果 线 程 块 的 尺 
寸 是 5， 一 个 线程 块 中 就 有 5 个 线程 。 因 此 ， 如 果 线 程 网 格 尺寸 为 10， 线 程 块 的 
尺寸 为 $， 就 表明 总 共有 50 个 线程 。 

比较 CPU 和 GPU 代码 。 在 CPU R, operation at_cpu(..) 中 的 加 法 在 
EIA IK ARH UEGT 2 TAARAR VE forloop 中 的 (20; i<N; i++) 明 确 地 设置 。 而 
GPU 代码 中 相应 部 分 执行 加 法 ， 则 是 通过 若干 线程 并 行 完成 的 。 并 行 化 条 件 由 
CUDA 内 置 设备 变量 (blockDim, blockIdx 和 threadIdx) 的 组 合 来 设 定 。 当 调 
用 核 函 数 时 ， 设 备 变 量 如 blockDim、blockIdx 和 threadIdx 受 限 于 <<<...>>> 中 
线程 网 格 尺 寸 和 线程 块 尺 寸 。 当 调用 GPU 设备 时 ， 实 际 的 并 行 运行 由 GPU WX 
备 自 动 激活 。blockDim、blockIdx 和 threadIdx 的 内 容 将 在 4.5 节 介 绍 。 


CPU code GPU code 


void operation at cpu(float za, . global void operation_at_gpu( float *a, 
float val, floatval, 
int N) int N) 











for (int i20; i«N; i++){ int i -blockIdx.x * blockDim.x + 
a[il-2a[i]-val; threadIdx.x; 
) if (i<N){ 
aL[i]s5al[i]- val; 
) 
} 


void mexFunction(...) void mexFunction(...) 


{ { 


operation at cpu(a, val, N); dim3 blockSize (number Of Threads); 
dim3 gridSize( ceil( N / (float) 
number, Of. Threads) ); 


operation at gpu«««gridSize, 
blockSize»»» (a, val, N); 





在 CUDA 中 ， 和 需要 告诉 GPU e TTT WARE, BATES E 
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何 分 成 线程 块 和 线程 网 格 。 
假设 做 一 个 徇 单 的 3X4 窃 阵 加 法 : 


a b c d m n o p 
A-|le f g hi B=lg r s t 
i j k I u v Ww x 


atm b+n c+o d+p 


A+B=|e+q f+r ges bitt 
itu j+v k+w [+x 





很 容易 地 确定 ， 这 12 个 独立 的 加 法 可 以 并 行 运 行 ， 并 且 可 以 通知 GPU 用 不 
同 的 方法 将 这 些 线程 组 成 线程 网 格 和 线程 块 ， 如 图 4.2 Bran. 


ix 





arm 


d+p 
bin h+t 
+r 
f f C+0 
Jtv k+w 
gts 
e+q i+u 


图 4.2 12 个 独立 的 加 法 可 以 并 行 运行 


43.1 Gr 
12 个 独立 的 加 法 可 以 有 各 种 分 组 方式 ， 即 一 个 线程 网 格 有 12 个 线程 块 ， 每 个 
线程 块 仪 有 1 个 线程 ， 如 图 4.3 Br. 





线程 块 1 


线程 0: 


bim 


线程 块 11 


线程 0: 
Lx 


图 4.3 每 线程 块 有 1 EREEISIG TE) 2H 
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4.3.2 Gr? 


为 一 种 线程 分 组 方法 是 1 个 线程 网 格 有 6 个 线程 块 ， 每 个 线程 块 有 2 个 线 
程 ， 如 图 4.4 所 示 。 


线程 块 4 
线程 0: 线程 1: 
jt+u jtv 


图 4.4 BESET NARE RET AH 





4.3.3 ” 远 辑 分 组 3 


CUDA 还 提供 了 二 维 或 三 维 上 的 分 组 方法 。 可 以 把 这 些 线程 分 成 每 个 线程 网 
格 中 有 2X2 个 线程 块 ， 而 每 个 线程 块 中 有 2X3 个 线程 。 这 样 总 共产 生 了 24 个 线 
程 ， 这 是 所 十 线 程 数 的 2 ft, WME 4.5 所 示 。 


线程 块 (0,0) 线程 块 (0,1) 


线程 (0,0) 线程 (0,1) 线程 (0,2) 线程 (0,0) 线程 (0,1) 线程 (0,2) 
a+m b+n C+O d+p e+g fir 
线程 (1,0) 线程 (1,0) 线程 (1,0) 线程 (1,0) 线程 (1,0) 线程 (1,0) 
ots h+t itu jy k+w Ix 











线程 块 (1,0) 线程 块 (1,1) 


线程 (0,0) 线程 (0,1) 线程 (0,2) 线程 (0,0) 线程 (0,1) 线程 (0,2) 
线程 (1,0) 线程 (1,0) 线程 (1,0) 线程 (1,0) 线程 (1,0) 线程 (1,0) 


图 4.5 ”二 维 逻 辑 分 组 
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注意 ， 有 一 些 线程 块 会 有 空 线 程 ， 即 无 需 进行 任何 计算 。 通 知 GPU 共有 24 
个 线程 ， 但 是 只 有 12 个 线程 实际 工作 。 在 核 函数 中 ， 通 过 检查 线程 索引 来 跳 过 这 
些 空 线程 。 

很 自然 地 ， 你 会 问 应 该 如 何 给 线程 分 组 。 要 回答 这 个 问题 ， 让 我 们 简单 地 看 
看 GPU 便 件 的 细 市 。 








44 GPU 向 单 介绍 


第 2 章 中 ， 利 用 了 CUDA 进行 二 维 卷 积 算法 ， 测 得 的 时 间 性 能 分 析 结 果 非 常 
令 人 失望 。 让 我 们 静 下 心 来 仔细 想 想 ， 最 初 的 CUDA 编程 到 底 出 了 什么 问题 。 可 
能 你 已 经 想到 ，CUDA 编程 成 功 与 否 与 理解 GPU 架构 有 密切 的 关系 。 接 下 来 简要 
地 回顾 一 下 GPU 是 如 何 设计 的 ， 以 便 能 够 更 好 地 使 用 GPU. 


4.4.1 数据 并 行 


与 CPU 不 同 ，GPU 以 高 否 吐 量 为 设计 目标 ， 例 如 GPU 可 以 对 一 帧 图 像 的 数 
百 万 个 像素 进行 同样 的 三 角 网 格 化 处 理 。 实 际 上 ，GPU 可 以 同时 运行 数 千 个 线 
程 ， 比 CPU 的 线程 数 要 多 得 多 ， 这 为 数值 并 行 处 理 开 麻 了 新 的 方法 。 基 于 这 一 诛 
K, GPU 因 其 共有 同时 运行 数 干 个 线程 的 能 力 ， 非 第 日 然 地 适合 实现 数据 的 并 行 
处 理 。 实 现 数 据 并 行 化 是 第 一 步 。 在 图 像 卷 积 的 范例 中 ， 每 个 像素 能 够 独立 处 理 
与 其 他 像素 并 行 。 如 果 图 像 的 大 小 为 10X 10 像素 ， 可 以 给 每 个 线程 分 配 一 个 像 
Ze, FEMA 100 个 线程 同时 进行 处 理 。 

在 便 件 方面 ，GPU 采用 单 指令 多 数据 〈Single Instruction, Multiple Data, 
SIMD) 模式 。 在 这 一 模式 下 ， 一 条 指令 可 以 处 理 多 个 不 同 的 数据 。 与 CPU fH 
比 ，GPU 拥有 更 多 的 内 核 和 寄存 器 ， 可 以 处 理 成 和 上 万 的 轻 量 级 线程 。GPU iE 
件 层 面 上 调度 这 些 线程 。 在 GPU 中 ， 上 下 文 切换 开销 几乎 为 零 ， 而 在 CPU 中 ， 
上 下 文 切换 的 开销 是 十 分 巨大 的 。 

4.4.0. 428 

GPU 的 基本 单元 是 流 处 理 器 (Streaming Processor，SP)。 流 处 理 器 具有 从 存 
储 器 中 获取 单 指 令 ， 并 在 不 同 数 据 集 上 并 行 执 行 这 条 指令 的 能 力 。 在 一 个 便 件 
上 ， 单 个 GPU 包含 数 以 万 计 的 流 处 理 器 。 

4.4.5. WA PHA D 

BON ub FH AS ZA a rm A SH AS (Steaming Multiprocessor, SM). Yi 4b3g 

IER TEE, EES, eee HETE. 
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XE 3E PAC 6 3x ES 2H FONTE DABIS. wm A} a ul LATO Pe ed RE LER CY) 
换 、 数 据 获 取 以 及 分 配给 多 个 线程 的 缓存 。 


444 ”线程 束 

ih FE AS RELL 32 个 并 行 线程 为 一 组 来 调度 线程 ， 这 32 个 并 行 线程 叫做 
“线程 束 ”。 同 一 线程 束 中 的 所 有 线程 共享 从 存储 器 中 获取 的 单条 指令 。 每 个 线程 
束 中 所 有 线程 按照 统一 步调 运行 。 只 有 当前 线程 束 中 所 有 的 线程 都 完成 工作 时 ， 
流 处 理 器 秘 才 会 处 理 下 一 个 线程 束 。 例 如 ， 如 果 一 个 线程 用 10s 完成 工作 ， 而 其 
他 线程 只 用 了 1s， 则 流 处 理 絮 族 需 要 等 竺 9s 再 开始 下 一 个 线程 束 。 

总 体 来 说 ，GPU 接收 到 许多 线程 网 格 。 线 程 网 格 中 的 线程 块 将 分 配给 流 处 理 
如 艇 。 然 后 流 人 处 理 右 艇 把 线程 分 配给 流 人 处理 右 ， 并 以 线程 束 为 单元 管理 这 些 线 
程 ， 如 图 4.6 和 图 4.7 所 示 。 线 程 以 线程 束 的 方式 进行 处 理 。 实 际 同时 运行 的 线程 
数 受 流 处 理 器 数量 限制 。 流 处 理 器 艇 负责 在 线程 束 中 调度 线程 。 


从 内 存 获取 针对 线程 束 x 的 指令 























线程 束 x 


时 间 





图 4.6 GPU 获得 线程 束 中 线程 的 一 个 指令 。 只 有 线程 束 中 的 
所 有 线程 都 完成 这 一 指令 后 ， 它 才 会 移动 到 下 一 个 线程 束 
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从 内 存 获取 针对 线程 束 z 的 指令 


voy 


和 暂停 直到 所 有 线程 到 达 这 一 步 





图 4.6 GPU 获得 线程 束 中 线程 的 一 个 指令 。 只 有 线程 束 中 的 
所 有 线程 都 完成 这 一 指令 后 ， 它 才 会 移动 到 下 一 个 线程 束 《〈 续 ) 
线程 网 格 2 
线程 网 格 6 线程 网 格 0 
线程 网 格 7 
N 线程 网 格 1 线程 网 格 4 


线程 网 格 10| Lem 


线程 网 格 8| | 线程 网 格 5 
线程 网 格 3 


J4 不 同 GPU 函 数 的 线程 网 格 








线程 网 格 队列 


任务 分 配 的 网 格 管理 活动 线程 网 格 





线程 块 分 配 
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线程 块 (X,y) 线程 (a,b) 线程 块 (a,b) 线程 (q,x) 
线程 块 (X,z) moreny 线程 块 (c,d) IRR | 
| 线程 (a.b) | 线程 (a,b) 


线程 块 (wb 2X FEE (S.r) 
(a EE Su 
线程 (a,b) 线程 (a,b) 


(Lb EH zs n 


图 4.7 在 GPU 中， 线程 网 格 、 线 程 块 和 线程 是 如 何 调度 的 
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4.4.5 ”存储 大 


GPU 中 主要 有 三 类 可 用 的 存储 占 。 第 一 类 为 全 局 存储 器。GPU 和 CPU 都 可 以 
访问 这 一 存储 器 空间 。 通 第 ， 在 CPU 侧 ， 首 先 将 全 局 存储 器 分 配给 GPU， 然 后 将 
CPU 存储 器 中 的 数据 复制 到 GPU。 所 有 线程 网 格 和 线程 也 可 以 访问 这 些 存储 器 空 
E ale, RIEA CUDA runtime API 调用 诸如 cudaMalloc 和 cudaMemcpy 的 
函数 来 分 配 内 存 ， 并 从 GPU 复制 数据 到 CPU， 或 者 从 CPU 复制 数据 到 GPU. 

第 二 类 为 共 圣 存储 占 。 并 不 是 所 有 的 线程 部 有 权 访 问 共 圣 存 储 占 ， 只 有 在 同一 
线程 块 中 的 线程 才 有 权 访 问 。 然 而 访问 速度 比 全 局 存储 器 要 快 很 多 。 可 以 用 关键 词 
. shared ”来 分 配 这 种 类 型 的 存储 器 。 如 果 数 值 需要 ， 量 一 个 线程 块 中 的 线程 可 以 
共享 这 些 数值 ， 就 可 以 把 这 些 线程 的 数据 存放 到 共 圣 存储 器 中 ， 这 样 可 以 减少 存储 
器 访问 的 时 间 开 销 。 

第 三 类 存储 器 只 对 每 个 线程 可 用 ， 这 束 是 使 用 寄存 器 的 单线 程 本 地 存储 占 。 与 
CPU 不 同 ，GPU 每 个 SM 上 有 数 以 千 计 的 寄存 器 。 这 些 寄存 器 专门 针对 每 个 线程 ， 
而 且 线程 上 下 文 切 换 开 销 几 乎 为 零 。 在 核 函 数 中 ， 声 明 数 据 为 本 地 变量 ， 即 可 获准 使 
用 寄存 器 。 然 而 ， 核 函数 中 本 地 存储 融 的 容量 是 十 分 有 限 的 ， 基 于 这 个 原因 ， 必 须 确 
保 不 会 滥用 。 当 寄存 器 不 能 满足 需求 时 ，GPU 就 会 将 它们 放 在 适用 于 本 地 线程 的 本 地 
存储 器 中 ， 但 是 这 不 会 像 访问 寄存 器 那样 快 。 

图 4.8 显示 了 GPU 存储 器 概况 。 






































EE 


E 





2 Ja FF fitter (GMEM) 
主机 (CPU) 


图 4.8 存储 融 空 间 的 高 层 概 况 


45 第 一 种 初级 方法 的 分 析 


如 第 2 章 所 示 ， 我 们 第 一 次 利用 CUDA 实现 二 维 卷 积 比 采用 MATLAB 内 置 
PRIA conv2 实现 二 维 卷 积 要 慢 得 多 。 了 解 了 GPU 内 部 结构 后 ， 现 在 我 们 开始 解决 
这 个 问题 。 在 第 一 种 方法 中 ， 育 目地 给 每 个 线程 网 格 分 配 一 个 线程 块 。 每 个 线程 











78 GPU 5 MATLAB 混合 编程 





块 分 配 一 个 线程 ， 这 里 给 出 了 需要 运行 的 线程 忌 数 ， 以 如 下 方式 声明 核 函 数 : 


dimgridSize(numRows, numCols) 
conv2MexCuda «««gridSize, 1>>> 


在 这 个 声明 中 ， 有 numRowsX numCols 个 线程 块 ， 每 个 线程 块 有 一 个 线程 。 
因此 ， 总 共有 numRows XnumCols 个 线程 。 记 住 ， 在 MATLAB 中 ， 数 据 是 按 列 顺 
序 传送 的 。 所 以 先 分 配 numRows， 然 后 再 分 配 numCols. ÆR) 4.9 中 ， 水 平地 移 
动 ， 数 据 线 程 块 映像 的 第 一 个 指针 是 行 数 ， 而 第 二 个 指针 是 列 数 。 在 输入 图 像 
中 ， 线 程 块 中 的 每 个 线程 处 理 一 个 像 系 点 。 

线程 块 (0, 0) ; 线程 块 ( 行 数 -1, 0) 





线程 0 H 线程 0 


线程 块 (0, 列 数 -1) 线程 块 ( 行 数 -1, 列 数 -1) 
图 4.9 ”将 每 个 像素 分 配给 一 个 线程 块 中 的 一 个 线程 

每 个 线程 网 格 中 的 线程 块 分 配给 SM， 而 每 个 SM 在 线程 束 中 调度 线程 。 在 初级 
方法 中 ， 当 一 个 SM 人 处理 线 程 时 ， 每 个 线程 束 中 只 有 一 个 线程 在 运行 。 然 而 一 个 SM 
在 一 个 线程 束 中 可 以 处 理 32 个 线程 。 由 于 一 个 线程 束 中 只 有 一 个 线程 ，SM 中 的 多 数 
SP 都 处 于 闲置 ，GPU 资源 利用 极 不 充分 。 

再 次 运行 NVIDIA Visual Profiler， 观 察 当 给 每 个 线程 块 分 配 一 个 线程 时 它 是 如 
何 执行 的 ， 如 图 4.10 0 Drm. 

E A Visu 

















二 [0] GeForce 9400 
— Context 1 (CUDA) 
Y MemCpy (HtoD) 
Y MemCpy (DtoH) 
一 Compute 
Y 99.8% [1] conv2Mexc... 
Y 0.2% [1] memset (0) 





CE Analysis |) Details £3 园 Console s | E Ac CO 
Name Start Time i id Size Block Size Regs Static SMem Dynamic SMem Size Throughput | 
Memepy HtoD [sync] 35.143 ms 63.072 us a n/a 
Memcpy HtoD [sync] 35.345 ms 5184 ys / n/a 4 
memset (0) 35.357 ms 54.592 us n/a n/a n/a n/a n/a 291156 KB 5.09 GB/s 
conv2MexCuda(float*, float* i... 35.415 ms : S [242,308,1] [11,1] n/a n/a 
Memcpy DtoH [sync] 67.968 ms 71.216 us n/a n/a n/a n/a n/a 2914156 KB 3.6 GB/s 























图 4.10 ”使 用 初级 方法 的 Visual Profiler 
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正如 在 Details 栏 中 看 到 的 那样 ， 当 线程 网 格 大 小 与 图 像 大 小 相同 时 ， 核 
函数 本 身 需 要 大 约 33ms。 每 个 线程 处 理 一 个 像素 。 利 用 第 一 种 方法 ， 甚 至 使 
得 基于 CUDA 的 卷 积 比 利 用 MATLAB 内 置 函 数 的 卷 积 速度 更 慢 。 因 此 ， 在 这 
种 情况 下 ， 没 有 得 到 GPU 加 速 的 优势 。 在 4.5.1 节 中 ， 将 试 着 调整 线程 网 格 
和 线程 块 的 大 小 ， 以 便 在 SM 中 可 以 利用 线程 束 中 的 其 他 线程 。 


45.1 TUUS A: 线程 块 

在 优化 步 又 中 ， 我 们 通过 调整 线程 网 格 和 线程 块 的 大 小 来 进行 优化 。 首 
H WARE TRINA A 16X16, PARRA 256 个 线程 ， 很 明显 ， 它 比 线 
程 束 的 矿 二 更 大 。 基 于 线程 员 和 图 像 的 大 小 ， 可 以 确定 线程 网 格 的 大 小 。 在 
第 一 种 方法 中 ， 每 个 线程 块 中 只 利用 了 其 中 一 个 线程 。 所 以 本 方法 通过 给 每 
个 线程 块 分 配 更 多 的 线程 ， 利 用 线程 块 中 的 其 他 线程 。 

每 个 刹 的 线程 块 中 包含 256 个 以 二 维 方式 排列 的 线程 ， 如 图 4.11 所 示 。 线 程 块 
中 的 每 个 线程 对 应 处 理 输入 图 像 的 每 个 像素 。 图 4.12 为 MATLAB 的 原始 输入 图 像 。 

























14,14 | 15,14 


图 4.11 AN 16x16 的 线程 块 





图 4.12 MATLAB 中 显示 的 输入 图 像 
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出 于 演示 的 目的 ， 首 先 将 输入 图 像 进 行 转 置 。 这 是 因为 来 日 MATLAB 的 
输入 图 像 是 按 列 顺序 存储 的 ， 然 而 在 C/C++ 和 CUDA 中 ， 图 像 是 按 行 顺序 存 
储 的 。 然 后 ， 把 线程 块 置 于 输入 图 像 的 顶部 ， 看 看 这 个 原始 图 像 是 如 何 分 为 
线程 块 和 线程 的 ， 如 图 4.13 Aras. 


行 数 (numRows) 


Block Block Block 
(0, 0) (1, 0) (2; y 
Block Block 
(0, 1) (1, 1) 

\ 












列 数 


(numCols) 








Kaf ) | 
| ) 
Block Block Block 线程 块 
(0, Y) CES (2, Y) (X, Y) 
K|4.13 PAPER s ED AN PR 


给 定 输入 图 像 和 线程 块 的 大 小 ， 可 以 确定 在 水 平和 垂直 方向 上 分 别 有 多 
少 线 程 块 。 注 总 到 线程 块 履 六 的 整个 区 域 比 输 入 图 像 大 。 这 是 因为 所 有 的 线 
程 块 应 该 是 相同 大 小 的 ， 而 图 像 的 大 小 可 能 不 是 线程 块 大 小 的 整数 倍 。 因 
此 ， 要 使 线程 块 履 新 的 整个 区 域 比 输入 图 像 大 。 

dim3 blockSize(16, 16); 

dim3 gridSize((numRows +15) / blockSize.x, (numCols-4 15) / blockSize.y); 

这 一 段 代码 展示 了 如 何 计算 线程 块 的 最 小 数量 ， 这 个 数量 必须 是 16 的 整数 
倍 ， 且 大 于 等 于 图 片 的 大 小 。 这 里 介绍 两 个 dim3 类 型 的 变量 blockSize 和 
gridSize. 

现在 ， 通 过 线程 指针 和 所 分 配 线程 块 大 小 《每 个 像 妹 对 应 一 个 线程 )， 可 以 访 
问 图 像 中 的 每 个 像素 。 当 调用 CUDA 核 图 数 时 ， 可 以 知道 哪个 线程 块 中 的 哪个 线程 
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正在 进行 处 理 。 在 核 函 数 中 ， 使 用 以 下 CUDA 的 全 局 变量 来 找到 确切 的 像素 位 置 。 

€ blockDim: 线程 块 的 大 小 (例子 中 是 16x16). 

€ blockIdx: ”线程 网 格 中 线程 块 的 索引 。 

@ threadIdx: 线程 块 中 线程 的 索引 。 

每 个 特定 像素 的 位 置 可 以 用 图 4.14 所 示 的 变量 计算 。 请 再 次 注意 ， 图 像 的 行 
是 水 平 表示 的 ， 而 图 像 的 列 是 垂 百 呈现 鸭 ， 因 为 在 MATLAB 中 ， 图 像 是 按 列 顺序 
存储 的 。 











blockldx.x=0, blockldx.x=1, blockldx.x=X, 
blockldx.y=0 blockldx.y=0 blockldx.y=0 
numRows 


blockDim.x=16 |o 
roo [ow Jose [ow [io [ops] = [9] De] 





= 
I 
d threadldx.x=0 
A threadldx.y=0 threadldx.x 
m threadldx. 
DK: 
We = 
- 
E 
E 
e 
blockldx.x=0, EN blockldx.x=X, 
blockldx.y=Y blockldx.y=Y 





row-blockldx.x*blockDim.x--threadldx.x 


col=blockldx.y*blockDim.y+threadldx.y 


图 4.14 分 配给 图 像 的 线程 志和 线程 


对 于 分 配 了 图 像 以 外 像 妹 的 线程 将 直接 返回 ， 不 进行 任何 处 理 。 在 本 例 中 ， 
也 忽略 了 疮 积 操 作 的 边界 区 域 。 在 核 轴 数 中 ， 通 过 如 下 方式 检查 操作 是 人 否 在 边界 
内 进行 : 

int row-blockIdx.x * blockDim.x- threadIdx.x; 


if (row<1 || row» numRows — 1) 
return; 

















int col 2» blockIdx.y * blockDim.y  threadIdx.y:; 
if (col <1 || col 2 numCols- 1) 
return; 
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现在 创建 一 个 新 文件 ， 并 保存 为 conv2MexOptA.cu. 


#include "conv2Mex.h" 

. global. void conv2MexCuda(float* src, 
下 | dst, 
int numRows, 
int numCols, 
float* mask) 


int row=blockIdx.x * blockDim.x+threadIdx.x; 
if (row<1 || row» numRows — 1) 
return; 


int col 2 blockIdx.y * blockDim.y+threadIdx.y; 
if (col <1 || col »numCols — 1) 
return; 


int dstIndex 2 col * numRows + row; 
dst[dstIndex]20; 
int mskIndex23*3-1; 
for (int kc2-1; kc «2; kc++) 
{ 

int srcIndex = (col +kc) * numRows + row; 

for (int kr=-1; kr «2; kr++) 

{ 

dstLdstIndex] + = mask[mskIndex—--] * src[srcIndex- kr]; 


j 


void conv2Mex(float* src, float* dst, int numRows, int numCols, float* msk) 
{ 

int totalPixels 2numRows * numCols; 

float *deviceSrc, *deviceMsk, *deviceDst; 


cudaMalloc(&deviceSrc, sizeof(float) * totalPixels); 
cudaMalloc(&deviceDst, sizeof(float) * totalPixels); 
cudaMalloc(&deviceMsk, sizeof(float) * 3*3); 


cudaMemcpy(deviceSrc, src, sizeof(float) * totalPixels, 
cudaMemcpyHostToDevice):; 
cudaMemcpy(deviceMsk, msk, sizeof(float) *3%* 3, 
cudaMemcpyHostToDevice); 

cudaMemset(deviceDst, 0, sizeof(float) * totalPixels); 


dim3 blockSize(16, 16); 
dim3 gridSize((numRows +15) / blockSize.x, (numCols 4 15) / blockSize.y); 
conv2MexCuda «««gridSize, blockSize>>> (deviceSrc, 

deviceDst, 
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numRows, 
numCols, 
deviceMsk); 


cudaMemcpy (dst, deviceDst, sizeof(float) * totalPixels, 
cudaMemcpyDeviceToHost); 


cudaFree(deviceSrc); 

cudaFree(deviceDst); 

cudaFree(deviceMsk); 
} 


FIX TE PM, BIER ABT AK PR BOE EA BUE P AAH E: 


conv2MexCuda <<< gridSize, blockSize>>>(deviceSrc, 
deviceDst, 


numRows, 
numCols, 
deviceMsk); 


我 们 问 核 函数 传送 狐 的 线程 块 和 线程 大 小 。 与 之 前 每 个 线程 块 中 只 处 理 一 个 
像素 的 方法 不 同 ， 这 里 将 图 像 重 组 成 16X 16 线程 块 ， 但 是 ， 与 之 前 方法 相同 ， 
个 线程 执行 3X3 撼 膜 乘法 和 加 法 。 

然后 ， 利 用 NVIDIA Visual Profiler 分 析 这 个 新 方法 。 时 间 分 析 结 果 显 示 ， 新 
方法 有 了 巨大 的 改善 ， 运 算 速 度 相 比 之 前 的 方法 提高 了 30 多 倍 ， 如 网 4.15 Ata. 





7| Q c R | Ws 
New Session £3, & *New Session 
50 ms 50.5 ms 51 ms 51.5 ms 52 ms 
=) Process 1468 
(7| Thread 4184 
Runtime API 
Driver API 
Profiling Overhead 
= 四 GeForce 9400 
=) Context 1 (CUDA) 
Y MemCpy (HtoD) 


Y MemCpy (DtoH) 
(7| Compute | conv2MexCuda(float", float", int, int, float") 


conv2MexCuda(float®, float”, int, int, float") 
Y 3.4% [1] memset (0) 
=] Streams 


Stream 2 conv2MexCuda(float*, float*, int, int, float") 


Tū Analysis (Cz Details £2 ` Console | Settings 
Name Start Time Duration Grid Size Regs Static SMem Dynamic SMem Size Throughput 





Memcpy HtoD [sync] 50.157 ms 64.064 us n/a n/a 291.156 KB 4.33 GB/s 
Memepy HtoD [sync] 50.358 ms 4.864 ys n/a / Í n/a 36 bytes — 706 MB/s 
memset (0) 50.368 ms 54.592 us / n/a 291.156 KB 5.09 GB/s 
conv2MexCudaí(float", flo... 50.426 ms 1.533 ms 16201 48 n/a n/a 
Memcp DtoH [sync] 51.961 ms 70.304 us n/a n/a 291.156 KB 3.95 GB/s 








图 4.15 ”采用 新 线程 块 大 小 优化 后 的 卷 积 


84 GPU 5E MATLAB 混合 编程 


4.5.2 ”优化 方案 也 


在 这 个 优化 方案 中 ， 其 他 地 方 保 持 不 变 ， 只 是 在 CUDA 核 函 数 中 引入 共享 存储 
A. ERMIR A 中 ， 每 个 像素 计算 卷 积 时 ， 要 反复 使 用 相同 的 9 个 掩 膜 值 。 在 每 
次 进行 措 膜 乘法 时 ， 都 要 从 全 局 存储 器 中 查询 这 些 值 。 从 GPU 全 局 存储 器 中 获得 这 
些 值 ， 比 从 共 于 存储 器 或 者 否 存 器 更 耗 时 。 所 以 ， 可 以 将 掩 膜 值 存放 到 共享 存储 器 
中 ， 使 得 全 局 存储 需 的 访问 开销 最 小 化 。 

在 核 函数 中 ， 做 如 下 声明 : 


. Shared float sharedMask[9]; 


这 条 指令 将 在 GPU 中 创建 一 个 共享 存储 器 ， 并 且 一 个 线程 块 中 的 所 有 线程 都 
可 以 共享 。 因 此 ， 线 程 块 中 所 有 256 个 线程 都 可 以 使 用 这 一 共享 存储 右 。 然 后 ， 
最 初 的 9 个 线程 用 掩 膜 值 填 满 共 于 存储 占 。 当 准备 好 用 于 存放 苑 积 措 膜 值 的 共享 
存储 器 后 ， 束 可 以 进行 实际 计算 了 。 为 了 在 填 满 共享 存储 器 之 前 ， 人 确保 没有 其 他 
线程 继续 计算 ， 调 用 以 下 函数 : 


























__syncthreads(); 
现在 ， 创 建 并 保存 一 个 新 文件 convMexOptB.cu， 如 下 : 


#include "conv2Mex.h" 


. global void conv2MexCuda(float* src, 
‘Oat ast. 
int numRows, 
int numCols, 
float* mask) 


int row=blockIdx.x * blockDim.x+threadIdx.x; 
int col 2» blockIdx.y * blockDim.y+threadIdx.y; 


if (row<1 || row>numRows —1 || col <1 || col »numCols — 1) 
return; 


__shared__ float sharedMask[9]; 


if (threadIdx.x«9) 
{ 
sharedMask[threadIdx.x] 2 mask[threadIdx.x]l; 


j 
. Syncthreads(); 


int dstIndex 2 col * numRows + row; 
dstLdstIndex]=0; 
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int mskIndex=8; 
for (Ht ke —l1zkés$2: KE) 
{ 
int srcIndex = (col + kc) * numRows + row; 
for (int kr2—1; kr «2; kr++t+) 
{ 
dstLdstIndex] + = sharedMask[mskIndex——] * src[srcIndex- kr]; 
} 


j 


void conv2Mex(float* src, float* dst, int numRows, int numCols, float* msk) 
{ 

int totalPixels =numRows * numCols; 

float *deviceSrc, *deviceMsk, *deviceDst; 


cudaMalloc(&deviceSrc, sizeof(float) * totalPixels); 
cudaMalloc(&deviceDst, sizeof(float) * totalPixels); 
cudaMalloc(&deviceMsk, sizeof(float) * 3* 3); 


cudaMemcpy(deviceSrc, src, sizeof(float) * totalPixels, 
cudaMemcpyHostToDevice); 
cudaMemcpy(deviceMsk, msk, sizeof(float) * 3*3, 
cudaMemcpyHostToDevice); 

cudaMemset(deviceDst, 0, sizeof(float) * totalPixels); 


const int size- 16; 

dim3 blockSize(size, size); 

dim3 gridSize((numRows - size— 1) / blockSize.x, 
(numCols+size—1) / blockSize.y); 


conv2MexCuda «««gridSize, blockSize>>> (deviceSrc, 
deviceDst, 
numRows , 
numCols, 
deviceMsk); 


cudaMemcpy(dst, deviceDst, sizeof(float) * totalPixels, 
cudaMemcpyDeviceToHost); 


cudaFree(deviceSrc); 

cudaFree(deviceDst); 

cudaFree(deviceMsk); 
] 


HUTA ASSP A SIRS efi de. DIVER PR BCP EY BUT TT PER rm, 
DIr n] LAEI ER Sri UE BSL Fe fifa A MAE 16x 16 个 线程 可 以 从 LI 
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绥 存 中 共享 相同 的 核 水 数值 ， 而 不 是 从 全 局 存储 器 中 获取 这 些 值 。 
FA NVIDIA Visual Profiler 编译 并 运行 上 述 代码 ， 得 到 如 图 4.16 所 示 的 结果 。 


相 比 于 第 一 步 的 优化 ， 性 能 得 到 了 一 定 的 改善 。 





File View Run Help 
ALEL 9, | 6 0 IR 
V Men Session [Ñ "New Session ` V "New Session 2 
52.25 ms 52.5 ms 52.75 ms A 53.25 ms 5 53.75 ms 
=| Process 1776 
[=] Thread 4200 
Runtime API 
Driver API 
Profiling Overhead 
=| Di GeForce 9400 
=) Context 1 (CUDA) 
Y MemCpy (HtoD) 


Y MemCpy (DtoH) 
=] Compute conv2MexCuda(float*, float", int, int, float") 


Y 95.0% (1) conv2MexcC... conv2MexCuda(float*, float", mt mt float") 
Y 5.0% [1] memset (0) 
=] Streams 


Stream 2 conv2MexCuda(float*, float", int, int, float") 


Start Time Duration Grid Size Block Size feos: Static SMem Danii SMem 

n/a 291.156 KB 

n/a 36 bytes 

52.585 ms 54.272 us n/a n/a n/a 291156 KB 
8 84 0 n/a 

n/a 291156 KB 


Memcpy HtoD [sync] 52.369 ms 63424 ps n/a n/a n/a n/a 
Memepy HtoD [sync] 52.575 ms 4.672 ys n/a n/ n/a n/a 
J 


Memcpy DtoH [sync] 53.675 ms 70.912 ps n/a 





图 4.16 利用 共享 存储 器 进行 优化 


453 ”总 结 
可 以 看 到 ， 相 比 于 第 一 种 初级 方法 ， 整 体 性 能 确实 有 了 很 大 的 改善 。 但 是 ， 

——— 这 种 方法 仍 落 后 于 MATLAB WA SZ ër conv2。 是 什 

么 原因 使 得 整体 速度 变 慢 ? 注意 到 ， 无 论 何 时 调用 函数 ， 一 定 要 运行 
cudaMemcpy。 在 玉 用 这 种 方法 时 ， 要 从 主机 的 存储 器 复制 数据 到 GPU 的 存储 
器 ， 或 者 从 GPU 的 存储 器 复制 数据 到 主机 人 存储器。 虽然 实际 上 GPU 内 部 的 卷 积 
运算 速度 非 童 快 ， 但 这 一 过 程 开 销 极 大 ， 上 所 以 ， 要 在 GPU 内 部 做 尽 可 能 多 的 计 
算 ， 并 尽 可 能 减少 主机 与 GPU 设备 之 间 的 数据 传递 。 
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9.1. ASS) Bn 


MATLAB 并 行 计 算 工 具 箱 为 并 行 处 理 提 供 了 有 用 的 工具 。 该 工具 箱 提供 多 种 
并 行 处 理 方式 ， 例 如 联网 的 多 台 计 算 机 、 多 核 计 算 机 的 多 个 内 核 、 集 群 计 算 以 及 
GPU 并 行 处 理 。 本 书 更 多 关注 并 行 计 算 工 具 箱 中 的 GPU 部 分 。 并 行 计 算 工具 箱 的 
优点 之 一 是 可 以 使 用 GPU 而 无 需 直 接 进 行 CUDA 编程 或 者 c-mex 编程 。 不 过 ， 安 
闭 并 行 计 算 工 具 箱 需要 额外 付费 。 本 章 将 讨论 以 下 内 容 : 

© GPU 处 理 MATLAB 内 置 函 数 。 

© GPU 处 理 MATLAB 非 内 置 函 数 。 

@ 并 行 任务 处 理 。 

e 并 行 数据 处 理 。 

€ 无 c-mex 的 CUDA 文件 直接 使 用 。 


5.2 GPU Abs MATIAB A ger ZA 


MATLAB 并 行 计 算 工 具 箱 仅 支持 L3 或 者 更 高 版 本 的 CUDA. TE MATLAB 
命令 窗口 中 使 用 gpuDevice 指令 ， 检 查 CUDA 版 本 以 及 其 他 GPU 相关 信息 ， 如 
图 5.1 所 示 。 





























>> gpuDevice 
ans = 


CUDADevice with properties: 


Name: ‘GeForce GT 640M LE' 


Index: 1 
DriverVersion: 5 
ToolkitVersion: 5 
MaxThreadsPerBlock: 1024 
MaxShmemPerBlock: 49152 
MaxThreadBlockSize: [1024 1024 64] 
MaxGridSize: [2.1475e+09 65535 65535] 
SIMDWidth: 32 
TotalMemory: 1.0737e+09 
FreeMemory: 972619776 
MultiprocessorCount: 2 
ClockRateKHz: 570000 
ComputeMode: 'Default' 
GPUOverlapsTransfers: 1 
KernelExecutionTimeout: 1 
CanMapHostMemory: 1 
DeviceSupported: 1 
DeviceSelected: 1 


图 5.1 通过 gpuDevice 指令 得 到 GPU 信息 
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在 图 5.1 "P, Name 显示 安装 在 计算 机 中 的 GPU 便 件 卡 ，ComputeCapability 
表明 安 效 在 计算 机 系统 中 的 CUDA 库 软件 版 本 本 例 为 CUDA 3.0)。 如 果 无 法 通 
过 gpuDevice 指令 得 到 信息 ， 那 么 进行 下 一 步 之 前 ， 需 要 先 检查 GPU 便 件 状态 或 
CUDA 软件 安装 。 

现在 ， 让 我 们 开始 在 MATLAB 中 为 GPU 准备 数据 。 正 如 第 3 章 提 到 的 ， 由 
于 GPU 通过 PCI 总 线 连接 到 CPU， 因 此 使 用 GPU 计算 时 ， 始 终 需 要 考虑 主机 
(CPU 和 主 存储 器 ) 与 设备 (GPU 和 GPU 存储 器 ) 之 间 的 数据 传送 。 用 如 下 的 
gpuArray 指令 ， 将 数据 从 MATLAB TIEFE] MFE EC) 传输 到 GPU WU 
备 存 储 器 : 


%test_gpuArray .nm 











À — 1:0.01:50000; 5 About bmillion elements 

A gpu = gpuArray(A); 5 transfer data to GPU device memory 
tic: B= TTtlA)s toc % FFT on CPU 

tic; B gpu = fft(A gpu); toc % FFT on GPU 

B from gpu = gather(B_gpu) ; % return data back to MATLAB workspace 








本 例 中 ， 回 量 A 通过 gpuArray 指令 传输 至 GPU 设备 存储 器 。 也 可 以 直接 给 
GPU 提供 数据 ， 如 下 所 示 : 

>> A_gpu = gpuArray(1:0.01:50000) ; 

这 里 , ft Æ CPU 和 GPU 两 者 上 都 进行 计算 。 要 注意 的 是 ， 对 于 CPU 和 
GPU， 我 们 使 用 了 相同 的 函数 名 (ff)， 不 过 由 于 输入 数据 的 不 同 (A 是 主 存储 器 
上 的 数据 ， 而 A gpu 是 GPU 存储 器 上 的 数据 )， 计 算 指 令 将 分 别 在 CPU 和 GPU 
上 运行。 可 以 在 MATLAB LYE AGES, WA 5.2 Br. 














Workspace 
Min Max 


«Too many element... «Too many element... 
«Too many element... «Too many element... 
«Too many element.. «Too many element... 
«1x4999901 complex double» «Too many element... «Too many element... 


«1x4999901 gpuArray> «Too many element... «Too many element... 





图 5.2 MATLAB 工作 空间 中 ， 主 存储 器 上 的 数据 A 显示 为 double， 
而 GPU 设备 存储 左上 的 数据 A_gpu 显示 为 gpuArray 
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用 gather 指令 将 数据 从 GPU 设备 存储 器 送 回 MATLAB TETA. ERIS 


Fs TT ARA P TAN: 


>> test gpuArray 

Elapsed time is 1.725417 seconds. 

Elapsed time is 0.644574 seconds. 

本 例 的 运行 结果 令 人 振奋 ，GPU 处 理 约 500 万 个 数据 的 运行 时 间 约 为 CPU 的 
之 一 。 不 过 ， 来 看 看 下 面 的 代码 : 

%test_gpuArray_small.m 


A=1:2:500; % data size = 250 


A_gpu = gpuArray(A); % transfer to GPU device memory 


tic: B=fft(A); toc 
tic; B_gpu=fft(A_gpu); toc 


B from gpu = gather(B_gpu); 

>> test gpuArray small 

Elapsed time is 0.000240 seconds. 
Elapsed time is 0.000655 seconds. 


在 这 个 例子 中 ， 数 据 量 很 小 ， 在 GPU 上 运行 并 没 能 获得 速度 提升 。 这 符合 前 








面 第 3 章 提 到 的 ， 只 有 对 于 密集 计算 的 情形 ， 转 换 为 GPU 代码 才 有 希望 获得 加 速 。 





可 以 通过 methods('gpuArray) TR? 2K A xf gpuArray 的 MATLAB HS mär, 
>> methods('gpuArray') 


这 样 ， 你 可 以 得 到 文 持 gpuArray WA mër, RRA IEA ENA EN 





MATLAB 内 置 函 数 都 完全 支持 GPU 处 理 ， 不 过 在 MATLAB 并 行 计算 工具 箱 的 每 
个 狐 版 本 中 ， 文 持 GPU 的 函数 都 在 不 断 增 加 。 下 表 为 MATLAB R2013a 版 文 持 


GPU 的 内 置 函 数 : 


Methods for class gpuArray: 


abs ezsurfc normest 
acos feather not 
acosh fft num2str 
acot TTL nume | 
acoth Tru he or 

acsc fftn padarray 
acsch TEL pareto 
all fill3 pcolor 
and filter permute 
any filter2 pie 
applylut find pie3 
area fix plot 


arrayfun floor plot3 


asec 
asech 
asin 
asinh 
atan 
atan2 
atanh 
bar 

bar3 
bar3h 
barh 
beta 
betaln 
bitand 
bitcmp 
bitget 
bitor 
bitset 
bitshift 
bitxor 
bsxfun 
bwlookup 
cast 

cat 
cconv 
ceil 
chol 
circshift 


clabel 


classUnderlying 
comet 
comet3 
compass 
complex 
cond 
coneplot 
conj 
contour 
contour3 
contourc 
contourf 
contourslice 
conv 
conv2 
convn 
COS 

cosh 

cot 

coth 

COV 
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fplot 
fprintf 
full 
gamma 
gammaln 
gather 
ge 
gpuArray 
gt 

hist 
horzcat 
hypot 
ECKE 
ifft2 
ifftn 
imag 
image 
imagesc 
imbothat 
imclose 
imdilate 
imerode 
imfilter 
imopen 
imrotate 
imshow 
imtophat 
ind2sub 
int16 


int2str 
int32 
int64 
int8 
interpl 
interpstreamspeed 
inv 
ipermute 
isa 
isempty 
isequal 
isequaln 
isequalwithequalnans 
isfinite 
isfloat 
isinf 
isinteger 
islogical 
ismember 
isnan 
isnumeric 


plotmatrix 
plotyy 
plus 

polar 

pow2 

power 

prod 

qr 

quiver 
quiver3 
rdivide 
real 
reallog 
real pow 
realsqrt 
reducepatch 
reducevolume 
rem 

repmat 
reshape 
ribbon 
rose 

round 
scatter3 
sec 

sech 

semi logx 
semi logy 
shiftdim 


shrinkfaces 
sign 

sin 

single 

sinh 

size 

slice 
smooth3 
sort 
sprintf 

Spy 

sqrt 

stairs 

stem 

stem3 
stream2 
stream3 
streamline 
streamparticles 
streamribbon 
streamslice 
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CSC isocaps streamtube 
csch isocolors sub2ind 
ctranspose isonormals subsasgn 
cumprod isosurface subsindex 
cumsum isreal subsref 
cur | issorted subvolume 
det issparse sum 

diag ldivide surf 

diff le SUPTC 
disp length surf] 
display log svd 
divergence log10 tan 

dot loglp tanh 
double log2 times 

eig logical transpose 
end loglog BET] 

eps (be trimesh 
eq lu trisurf 
erf mat2str triu 

erfc max uint16 
erfcinv mesh uint32 
erfcx meshc uint64 
erfinv meshgrid uint8 
errorbar meshz uminus 
existsOnGPU min uplus 

exp minus var 

expml mldivide vertcat 
ezcontour mod vissuite 
ezcontourf mpower volumebounds 
ezgraph3 mrdivide voronoi 
ezmesh mtimes waterfall 
ezmeshc ndgrid xcorr 
ezplot ndims xor 
ezplot3 ne 

ezpolar nnz 

ezsurf norm 

Static methods: 

colon logspace randn 

eye nan true 
false ones zeros 

inf rand 

linspace rand 


当 使 用 GPU 处 理 大 量 数据 时 ， 应 进行 数据 验证 。 在 CPU 处 理 时 ， 如 果 试 
图 运行 的 数据 超出 了 当前 操作 系统 预先 分 配 的 内 存 ， 那 么 操作 系统 会 通过 与 
便 盘 进行 存储 交换 ， 目 动 地 处 理 内 存 不 足 。 虽 然 存 储 交 换 会 减 慢 计 算 速度 ， 
但 是 无 需 担 心 数 据 丢 失 。 然 而 在 GPU 处 理 时 ，GPU 设备 不 会 与 硬盘 进行 存储 
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交换 ， 因 此 使 用 者 应 该 验证 GPU 上 的 数据 有 没有 超出 GPU 设备 内 存 容量 的 
上 限 。 
看 看 下 向 的 例子 : 


verify_gpuData.m 


gpuDevice 


= rand(10000); 
A gpu = gpuArray(A); 


5 10000x 10000 double on main memory 
% 10000 X 10000 double on GPU memory 


gpuDevice 


= rand(10000); 
B gpu = gpuArray(B); 


5 Another 10000 x 10000 double on main memory 
% Another 10000 x 10000 double on GPU memory 


>> verify gpuData 


ans — 
CUDADevice with properties: 
Name: "GeForce GT 640M LE' 
Index: 1 
ComputeCapability:  '3.0' 
SupportsDouble: 1 
DriverVersion: 5 
ToolkitVersion: 5 
MaxThreadsPerBlock: 1024 
MaxShmemPerBlock: 49152 
MaxThreadBlockSize: [1024 1024 64] 
MaxGridSize: |) [2.1475e-- 09 65535 65535] 
SIMDWidth: 32 
TotalMemory: 1.0737e+09 
FreeMemory: | 973668352 
MultiprocessorCount: 2 
ClockRateKHz: | 570000 
ComputeMode: ‘Default’ 
GPUOverlapsTransfers: 1 
KernelExecutionTimeout: 1 
CanMapHostMemory: 1 
DeviceSupported: 1 
DeviceSelected: 1 
ans = 


CUDADevice with properties: 


Name: "GeForce GT 640M LE' 
Index: 1 
ComputeCapability:  '3.0' 
SupportsDouble: 1 
DriverVersion: 5 
ToolkitVersion: 5 
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MaxThreadsPerBlock: 1024 
MaxShmemPerBlock: 49152 
MaxThreadBlockSize: [1024 1024 64] 
MaxGridSize: [2.1475e+09 65535 65535] 
SIMDWidth: 32 
TotalMemory: 1.0737e+09 


FreeMemory: | 173604864 


MultiprocessorCount: 2 
ClockRateKHz: — 5/0000 

ComputeMode: X 'Default' 

GPUOverlapsTransfers: 1 
KernelExecutionTimeout: 
CanMapHostMemory : 
DeviceSupported: 
DeviceSelected: 


m Ech L2 LA 


Error using gpuArray 

Qut of memory on device. To viewmore detail about 
available memory on the GPU, use 'gpuDevice()'. If the 
problem persists, reset the GPU by calling 
'gpuDevice(1)'. 


Error in verify. gpuData (line 11) 

B gpu = gpuArray(B); % Another 10000 x 10000 double on 

GPU memory 

在 一 切 开 始 前 ， 首 先 用 gpuDevice 进行 查询 ，GPU 设备 的 空闲 内 存 为 973 668 352 
字 节 。 在 运行 A_ gpu= gpuArray(A) 后 ，GPU 设备 的 空闲 内 存 减 至 173 604 864 字 节 。 通 
过 指令 B= rand(10000), KERE B 安全 地 分 配 到 主机 的 主 存 储 器 上 ， 不 过 在 运行 B_gpu 
= gpuArray(B) 后 ， 会 有 一 个 来 自 GPU 端的 错误 信息 。 这 种 情况 下 ， 应 该 通过 clear 指令 
或 者 重 置 全 部 GPU 设备 内 存 ， 清 除 一 些 GPU 数据 ， 给 新 的 GPU 变量 留 出 额外 的 空 
HJ, "Fro, 


>> clear A gpu 














Er 


>> g = gpuDevice(1); 
>> reset(g); 


9.9. GPU 处 理 非 内 置 MATLAB ez 


现在 来 寻找 将 GPU 用 于 目 行 编写 的 MATLAB 函数 的 方法 。 可 以 采用 


arrayfun Pr. Æ GPU 上 运行 目 行 编写 的 MATLAB 代码 。arrayfun 通过 元 素 操 
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作 将 目 行 编写 的 函数 用 于 每 个 数据 元 素 。 实 际 上 ，arrayfun 函数 不 是 GPU & H rf 
数 ， 而 是 GPU 文 持 函数 。 因 此 ， 可 以 在 5.2 节 MATLAB 并 行 计算 工具 箱 中 的 
GPU 文 持 函数 列表 内 找到 arrayfun Px Av. 

使 用 arrayfun RRA ZSIFIT A GPU 运算 做 了 单独 的 调用 ， 这 个 调用 执行 了 全 
部 的 运算 ， 而 不 是 为 各 个 分 离 的 GPU ELSE TA 对 于 存储 在 GPU 
存储 器 上 的 gpuArray 数据 ， 目 行 编写 的 MATLAB rKZIDÉ E. arrayfun 可 以 在 GPU 
上 执行 ， 并 且 将 输出 存在 GPU Zem är, 

可 采用 如 下 形式 使 用 Arrayfun: 


result = arrayfun(@myFunction, argl, arg2, ...); 


Hm, argl 和 arg2 是 myFunction 的 输入 实 参 ， 这 些 输 入 实 参 应 为 用 于 GPU 
处 理 的 gpuArray 数据 。myFunction 应 为 标量 〈 也 束 是 按 元 素 计 算 ) 运算 ， 因 此 
不 文 持 问 量 和 和 窍 阵 计算 。myEunction 的 输出 是 result， 也 同样 存储 在 GPU 存储 
Zén, 

让 我 们 看 看 下 面 这 个 徐 单 的 例子 : 


5 test arrayfun.m 5 my own element-wise MATLAB function 
5 myFunc.m 





























a = gpuArray(1:0.1:10); 

b gpuArray(2:0.1:11); function out 2 myFunc(a, b, c, d) 
c = gpuArray(3:0.1:12); out=b/(a*d*sin(c)); 

d = gpuArray(4:0.1:13); 


gpu rlt = arrayfun(@myFunc, 
aD cd]; 


rit = gather(gpu_rlt); 


代 人 码 myFunc.m 有 4 个 输入 实 参 (a,b，c, d)， 均 通过 test arrayfun.m 中 的 
gpuArray 存储 在 GPU 存储 器 上 。 非 内 置 函数 myFunc.m / Reg Ss TM, JS 
运算 可 以 在 GPU 内 很 容易 地 实现 并 行 化 。 通 过 test arrayfun.m. 中 的 arrayfun Pi 
数 ， 我 们 实现 了 在 GPU 上 运行 myFunc 函数 。 

尽管 arrayfun 的 输入 函数 只 能 进行 元 系 级 运算 ， 但 是 这 并 不 意味 独 只 允许 进 
行 简单 运算 。 反 而 ， 通 过 arrayfun， 输 入 函数 可 以 在 GPU 上 进行 任意 标量 运算 和 
流程 控制 (例如 forloop. while-loop. break. if 5): 











5 user's scalar MATLAB function 
function Lout, count] = myGoodFunc(a, b, maxIter) 
count = 0; 


out — 0; 
amp = abs(a*2+ b^2); 
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while (count <= maxIter) & (amp < 1.5) 


Out e(2^3-»b/ga); 
count = count 十 1; 
end 


5 scalar arrayfun.m 


A = gpuArray.rand(40,40); 
B = gpuArray.rand(40,40); 


max Iter = 3000; 
Lgpu_rlt, gpu count] = arrayfun(@myGoodFunc, A, B, max Iter); 


rit = gather(gpu rlt); 
count = gather(gpu count); 


PRIM, he ZEEE TC ae RY | AN TE UAR EE [n] fe 475123831 arrayfun 在 GPU 上 
运行 。 











5 test arrayfun2.m 5 myFunc2.m 

A = gpuArray.rand(2,5,4); function out = myFunc2(A, B) 

B = gpuArray.rand(2,5,4); 

gpu rlt = arrayfun(@myFunc2, A,B); al=A(1,1,1); %Matrix indexing 

rit = gather(gpu_rlt); ACI.I,10 =] 41*B(1,2.1)— 35 
out=B./A; 

由 于 myFunc2m "P mj 4B ME Z8 9] 35 f£ C matrix indexing operation ) , 

test arrayfun2.m 将 导 八 如 下 错误 信息 : 
>> test arrayfun?2 


Error using gpuArray/arrayfun 
Indexing is not supported. errorat line: 6 





Error in test arrayfun2 (line 6) 
gpu rlt = arrayfun(@myFunc2, A, B); 


5.4 并 行 任 务 处 理 


5.4.1 MATLAB worker 


并 行 计 算 工 具 箱 为 并 行 “ 任 务 ” 处 理 (parfor， 将 在 5.4.2 市 中 介绍 ) 和 并 行 
“数据 ”处 理 〈spmd， 将 在 5.5.4 TETA) 均 提供 了 非常 融 效 的 方法 。 虽 然 在 并 
行 计算 工具 箱 中 ， 并 行 任 务 处 理 和 并 行 数 据 处 理 方法 更 多 地 与 CPU 相关 ， 而 不 是 
GPU， 然 而 当 这 些 方法 与 GPU 处 理 相 结合 时 ， 可 以 明显 提升 速度 。 
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每 个 CPU 内 核 都 具有 独立 的 MATLAB 2th, WZA “worker” 9. PTH 
MATLAB 有 版 本 (2013a)， 一 台 计 算 机 可 以 最 多 拥有 12 个 worker， 并 且 默 认 
worker 数目 由 计算 机 可 用 内 核 的 数目 确定 。 为 了 将 主 MATLAB 的 会 话 与 每 个 
worker 各 目的 会 话 区 分 开 ， 称 主 MATLAB SEN “ZP inm” Ak, ETE 
MATLAB 会 话 在 访问 worker 之 前 和 之 后 均 是 客户 问 。 对 于 并 行 处 理 ， 我 们 应 通过 
指令 matlabpool 准备 可 用 的 worker, "ud 5.3 Pras. 














Command Window @ ` Workspace @ | 
Value 


Starting matlabpool using the ‘local’ profile ... Warning: Found 1 pre-exist 


e y ~ ay nee = ahnar "meo farra m ës 8 PA "amne 








Helper»MatlabpoolHelper.doOpen at 263 





J ALXaAL.ALA À AALS ALT?) ALBA a T AZ/ 人 人 A 人- 


connected to 4 workers. 
- 





Command History 





图 $.3 用 matlabpool 指令 准备 可 用 的 worker 


在 图 5.3 中， 执行 命令 matlabpool 后 ， 能 从 MATLAB 指令 窗口 中 的 connected 
to 4 workers 和 右 下 角 显 示 的 数学 4， 确定 上 默认 的 worker 数目 。 可 以 通过 图 5.4 和 
图 5.5 所 示 的 Manage Cluster Profile 92°F, KEKAH worker 数目 。 








Lex ce W CA Find Fies X, Lj ^ de New Variable 


Up Open Variable v 
New New Open LU Compare Import Save : z 
Script > X Data Workspace (7 Clear Workspace v 











SC VARIABLE CODE SUNEN set Defaut 
4» > FD Lb C > Users >» Jung >» Documents » MATLAB Choose the default cluster profile to use with 
Current Folder (me Command Window matiabpool, batch, or parciuster 
Name « >> matlabpool Discover Clusters... 


Starting matlabpool using the 'local' profile ... Warning: | Search for MATLAB Distributed Computing Server 
that are running. You can use ‘matlabpool close force local clusters on your network 


jobs created by matlabpool. Ma Cluster Profiles. 
> In InteractiveClient»InteractiveClient.pRemoveOldJObS at Mcreate edit, or import cluster profiles 
In InteractiveClient»InteractiveClient.start at 260 











In MatlabpoolHelper»MatlabpoolHelper.doOpen at 363 Monitor Jobs 
In MatlabpoolHelper»MatlabpoolHelper.doMatlabpool at 137 | View and work with jobs on your machine or on a 
In matlabpool at 139 cluster 














rr 


图 5.4 EA Parallel 26 pm H DU Manage Cluster Profiles... KE OC BC, DI worker 数目 





O HT MATLAB 分 布 式 计算 服务 器 产品 可 以 让 使 用 者 在 远程 计算 机 集群 上 运行 额外 的 worker， 因 此 称 单机 多 
核 worker 为 本 地 worker。 简 单 起 见 ， 本 书 中 只 采用 单机 进行 并 行 处 理 ， 所 以 这 里 的 worker 即 为 “本 地 worker”。 
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Description of this cluster The local cluster 
Description 


Number of workers to 4 


m im E Default is number of cores, up to 12 
machine 


NumWorkers 


Folder where cluster | Use default 


stores job data : z : 
JobStorageLocation Default is determined at runtime 


ke 


am) mm ARA Ent mmm 





K|5.5 要 修改 默认 worker 数目 ， 可 在 Cluster Profile Manager 窗口 中 设置 
如 果 计 算 机 上 只 有 4 个 内 核 ， 而 要 求 8 个 worker，MATLAB 会 产生 8 个 
worker， 但 是 它们 会 共享 4 个 内 核 。 多 个 worker 共 侍 同一 内 核 有 可 能 提升 处 理 速 
度 ， 也 有 可 能 不 提升 ， 其 体 情 况 取决 于 代码 。 








5.4.2 parfor 


使 用 parfor 取代 for-loop， 可 以 轻松 实现 任务 并 行 化 。 在 用 matlabpool 指令 预 
留 MATLAB worker 后 ， 使 用 parfor， 可 以 将 for-loop 之 间 的 命令 行 目 动 地 分 布 于 
各 个 worker 上 ， 如 下 所 示 : 


fori=1:100 


command 


end 


matlabpool AA “matlabpool” #8 S474 worker, RIA MAY “ parfor-loop” 


将 隐 式 地 分 为 4 个 ”for-1oop ”命令 和 并 行 执行 


parfor i =1:100 
command mom i =1:25 mom i = 26:50 mee 1 =51:75 EUN i = /6:100 


command command command command 


end end end end 
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在 表面 的 例子 中 ， 为 了 解释 parfor 的 概念 ， 各 个 for-loop 循环 在 worker 之 间 精 确 
地 均匀 分 布 (1 一 23、26 一 50、51 一 75 和 76 一 100)， 但 是 实际 任务 中 并 不 总 是 均 
匀 分 布 的 ， 这 依赖 于 CPU 上 运行 的 其 他 程序 。 

对 于 parfor 循环 ， 不 同 输入 数据 的 相同 运算 可 以 “任务 独立 ”和 “命令 独 
了 ”的 方式 并 行 地 执行 。 也 就 是 说 ， 当 任务 之 间 无 相关 性 时 ，parfor 循环 在 并 
行 任务 处 理 中 提供 了 很 多 益处 。 由 于 parfor 循环 用 于 并 行 操 作 ， 因 此 循环 中 
不 能 包含 break 和 return 语句。 尽管 parfor 循环 内 部 允许 普通 的 for-loop， 但 
是 同样 也 不 能 包含 另 一 个 parfor HAH MTR KE - 

下 和 面 我 们 通过 六 布 尼 次 公式 计算 7 从 ， 比 较 普 通 的 forloop 指令 与 parfor 循环 


























指令 : 
"= 2 - 242n41 
] 十 l 5 ES 
3 
2+ S 
2 十 5 
2 十 
5 pi Leib.m Ap Leib parfor.m 
Lic matlabpool 
N = 10000000; ric 
sum = 0; 
N = 10000000; 
for 121:(N-1) sum = 0; 
Denom=2* (i-1) +1; parfor i1=1:(N-1) 
Sigo = (-1)^CT91)^ 
sum = sum+ 4 * Sign / Denom; Denom= 2 * (i-1)+ 1; 
end Sign = (-1)^(i-1); 
sum = sum+ 4 * Sign / Denom; 
sum end 
toc sum 


Doc 
>> pi Leib 


sum — 
3.1416 


Elapsed time is 25.535713 seconds. 
>> pi_Leib_parfor 


sum = 
3.1416 


Elapsed time is 8.170260 seconds. 
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例子 pi Leib parfor.m 使 用 了 4 个 worker， 运 行 时 间 约 为 使 用 普通 for-loop 的 
pi Leib.m 的 1/3. 


9.0 FHT AAA 


5.5.1 spmd 

并 行 计算 工具 箱 提供 的 spmd〔 蛙 程序 多 数据 〉 是 一 种 非常 高 效 的 “数据 ”并 
行 处 理 方 法 。 与 parfor 一 样 ，spmd 通过 matlabpool 使 用 MATLAB worker. iX Hi 
“单程 序 多 数据 ”的 含义 是 完全 相同 的 代码 同时 在 多 个 MATLAB worker 上 处 理 不 
同 的 数据 ， 从 而 实现 并 行 处 理 。spmd 的 基本 语法 格式 如 下 : 

spmd 




















command 


end 


parfor 与 spmd 有 上 所 不 同 ， 首 先 spmd 将 数据 划分 成 许多 个 小 块 ， 而 parfor 将 
循环 分 成 更 小 的 循环 。 因 此 ，parfor 要 求 worker 之 间 相 互 独立 或 不 通信 ， 而 spmd 
允许 不 同 worker 之 间 相 互通 信和 具有 依赖 关系 ， 因 此 更 加 灵活 。 束 parfor 而 言 ， 
一 个 循环 由 MATLAB 目 动 划分 到 每 个 worker 上 。 而 在 spmd 的 情况 下 ， 用 户 将 每 
一 个 数据 段 明确 地 划分 到 每 一 个 worker 上 。 因 而 ，spmd H parfor 指令 需要 更 多 的 
HPF HF parfor 与 spmd 均 使 用 worker， 因 此 parfor 循环 体 不 能 包含 spmd 
语句 ， 而 spmd 语句 也 不 能 包含 parfor 循环 。 不过， 只 要 spmd HRA ARKE, 
那么 一 个 程序 可 以 有 多 个 spmd Er, 

与 parfor 不 同 ， 用 户 可 通过 使 用 labindex( ) 和 numlabs( ) 明 确 地 分 配 并 行 数 据 
处 理 spmd 语句 内 的 指令 。 

日 令 labindex( ) 返 回 当 前 worker 的 唯一 性 索引 ， 而 numlabs( ) 返 回 了 可 用 
worker 的 数目 。 在 未 使 用 labindex( ) 函 数 的 情况 下 ，spmd 隐 式 地 使 用 每 个 
worker， 这 意味 看 在 没有 用 户 干预 时 ， 数 据 处 理 将 日 动 分 配给 每 个 worker。 


A spmd index.m 























matlabpool 


A= 1210: 
B= 11:20: 


spmd 
index = labindex(); 
if index = = 
D=A.*B; 
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end 
end 


matlabpool close 


上 述 代 人 码 在 不 同 worker 上 执行 不 同 运 算 ， 有 基体 执行 何 种 运算 取决 于 labindex( ) 
的 返回 值 。 客 户 端 中 的 变量 (这 里 为 A 与 B) 是 spmd 块 外 的 全 部 命令 行 ， 可 以 被 
spmd 块 中 的 每 个 worker 引用 。 与 MATLAB 后 续 版 本 不 同 ， 在 旧版 本 的 MATLAB 
中 spmd 块 内 不 能 修改 客户 喘 变量 。 上 述 代 人 码 运 行 结果 如 下 所 示 : 
>> spdm_index 
>> D 
D = 
Lab 1: class = double, size=[1 10] 
Lab 2: class = double, size=[1 10] 








>> DNH) 


ans. = 
11 24 39 56 75 96 119 144 171 200 


12 14 16 18 20 22 24 26 28 30 


KA spmd 块 的 结果 D, MEW Aa RIBS IA]. MATLAB 将 客户 
MMI dr lr “SE GOR”, 其 引用 了 分 配 的 worker 上 的 变量 。 因 此 ，D 有 如 
下 的 形式 ， 该 形式 在 每 个 worker 上 表示 不 同 的 数据 : 

D = 


Lab 1: class = double, size= [1 10] 
Lab 2: class = double, size= [1 10] 


为 了 访问 每 个 worker 上 各 目的 结 末 ， 我 们 采用 元 胞 数组 索引 的 方法 ， 使 用 
DILA D2 这 样 的 花 插 号 。DfH} 为 由 worker 1 计算 的 D 的 值 。 每 个 worker 上 的 
变量 可 以 在 客户 疹 用 这 种 人 花 括 号 的 方式 进行 修改 。 

K 5.1 给 出 的 spmd 例子 中 ， 一 个 客户 端的 两 个 worker 有 各 目的 工作 空间 。 这 
里 ， 黑 体 数字 代表 全 部 工作 空间 中 最 近 更 新 的 变量 。 从 这 个 表格 中 ， 我 们 可 以 发 
现 ， 客 户 问 的 全 部 指令 与 全 部 spmd HRA AE BHT, (hee worker 上 
spmd 块 内 的 指令 则 是 同时 执行 。 

让 我 们 看 一 下 表 5.1 中 的 spmd value modification.m 人 代码。 首先 ， 通 过 函数 
Composite( ) 建 并 每 个 worker 的 复合 对 象 ， 并 由 第 3 行 到 第 5 47, TER PP ET 
始 化 。 复 合 对 象 也 可 以 直接 在 spmd 块 内 建立 ， 如 例子 spmd_index.m 中 的 D. X 
次 ， 第 一 个 spmd 块 中 的 变量 1、k、z 对 于 不 同 worker 有 不 同 的 值 ， 有 具体 取 值 依赖 
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于 labindex( )， 而 且 独 立 并 行 地 进行 处 理 。 第 三 ，spmd 块 中 创建 的 复合 变量 k 的 
值 在 客户 庙 的 工作 空间 《第 13 行 ) 更 改 ， 并 且 更 改 的 值 将 用 于 后 面 的 spmd 块 ， 
不 会 有 任何 问题 。 

请 注意 从 第 15 行 到 第 18 行 的 第 二 个 spmd 块 。 所 有 之 前 在 第 一 个 spmd Hr 
(从 第 7 行 到 第 11 行 ) 中 使 用 过 的 变量 都 存储 相同 的 数值 ， 除 了 kf{f2}。 虽 然 第 一 
个 spmd 块 在 第 11 行驶 完全 结束 ， 不 过 变量 k42} 在 客户 端的 工作 空间 第 13 行进 行 
了 修改 ， 并 且 一 些 客 户 端 程序 在 那 之 后 执行 。 但 是 ， 如 果 MATLAB 函数 被 另 一 个 
函数 中 的 spmd 块 在 函数 内 部 调用 ， 那 么 当 函 数 完成 后 ，spmd 块 内 变量 的 值 会 丢 
失 ， 这 与 普通 的 MATLAB 函数 数据 一 样 。 


R51 客户 端 分 离 的 工作 空间 与 spmd worker 
































Line # Code Client Worker 1 Worker 2 

spmd value modification.m X y i k Z j m i k Z j m 
1 x=5; 5 — — — — — — — — 一 一 一 
2 y=6; 5 6 — — — 一 一 一 一 一 一 一 
3 z — Composite(); 
4 z(i1) 21; 5 6 - — 1 — — — — 一 一 一 
5 212) 22; 5 6 — — 1 一 一 一 一 2 一 一 
6 
7 spmd 
8 i = labindex(); 5 6 1 — 1 — — 2 — 2 — — 
9 kK=x+i 5 6 1 6 1 一 一 2 7 2 一 一 
10 z=10*i 5 6 1 6 10 一 一 2 7 20 一 一 
11 end 
12 
13 k(2) 2» 10 5 6 1 6 10 一 一 2 10 20 一 一 
14 
15 spmd 
16 j = labindex(); 5 6 1 6 10 1 一 2 10 20 2 一 
17 m=k*j; 5 6 1 6 10 1 6 2 10 20 2 20 
18 end 


final 5 6 1 6 10 1 6 2 10 20 2 20 
5.5.2 ”分 布 式 数组 与 同 分 布 数 组 

分 布 式 数 组 是 使 用 spmd 进行 并 行 数据 处 理 最 有 效 的 方法 之 一 。 分 布 式 数组 的 
基本 概念 很 徐 单 ， 却 很 强大 。 当 需要 处 理 一 个 大 窍 阵 时 ， 可 以 将 矩阵 分 解 成 很 多 
HU) AEE, FERS worker 上 并 行 处 理 。 由 于 计算 一 个 大 矩阵 需要 大 存储 器 以 
及 更 长 的 处 理 时 间 ， 因 此 在 实际 中 ， 将 一 个 大 数组 分 散 开 有 很 大 好 处 。 下 面 列 出 
的 第 一 个 分 布 式 的 例子 将 说 明 其 基本 操作 。( 本 小 节 假 设 matlabpool 已 经 激活 。) 

bdist_first.m 


A= rand(2,8); 
dA = distributed (A); 














spmd 


localPart = getLocalPart(dA); 
end 
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AREE A 的 大 小 为 2x8。distributed(A) 将 A 中 的 元 素 以 2x2 的 形式 分 配给 每 个 


worker (使 用 4 个 worker)， 如 下 所 示 : 


Workerl Worker2 Worker3 Worker4 
local Part{1} localPart{2} local Part{3} localPart{4} 


Col: Coll Col2 Col3 Col4 Col5 Col6 Col7 Col8 
Rowl 0.3804 0.0759 0.5308 0.9340 0.5688 0.0119 0.1622 0.3112 
Row2 0.5678 0.0540 0.7792 0.1299 0.4694 0.3371 0.7943 0.5285 


XE, br A HP TUR ERD GRIST Ac. FEE EME, fe “SE RE 





作 分 配 的 基准 。 通 过 getLocalPart( ) 函 数 ， 我 们 可 以 从 worker 得 到 分 布 式 窍 阵 的 各 
PA. ANP IRA Mr: 


>> dist_first 
>> A 


A = 
0.3804 0.0759 0.5308 0.9340 0.5688 0.0119 0.1622 0.3112 
0.5678 0.0540 0.7792 0.1299 0.4694 0.3371 0.7943 0.5285 


>> localPartí1) 


ans = 
0.3804 0.0759 
0.5678 0.0540 


>> localPart{2} 


ans = 

0.5308 0.9340 

0.7792 0.1299 
distributed( ) äi A) REJSER, GEI, TETUR S AUNT AM 
最 后 一 个 worker 有 奇数 列 数据 ， 如 下 所 示 : 


^ dist second.m 


A= rand(2,7) % odd number of column 
dA = distributed(A); 
spmd 

localPart = getLocalPart(dA); 

localPart(1,1) 


end 
>> dist_second 


A 三 


NEM 0.7060 BENED 0.09071 NEM 0.950? WEE 
0.1712 0.0318 0.0462 0.8235 0.3171 0.0344 0.3816 
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Lab 1: 


ans — 
0.6555 


Lab 2: 


ans — 
0.27069 


Lab 3: 


ans — 
0.6948 


Lab 4: 
ans — 
0.4387 


>> localPart 


localPart — 
Lab 1: class = double, size= [2 2] 
Lab2: class = double, size = [2 2] 
Lab 3: class double, size = [2 2] 
Lab4: class double, size= [2 1] 


>> localPart{3} 


ans = 
0.6948 0.9502 
0.3171 0.0344 


>> localPart{4} 


ans = 
0.4387 
0.3816 

请 注意 ， 分 布 式 矩阵 localPart BE ACMA, XC deum IAE 
阵 A 有 所 差别 。 

这 里 有 两 种 方法 可 以 将 窍 阵 分 配给 多 个 worker: distributed( ) 与 
codistributed( ). distributed( ) 在 矩阵 进入 spmd 块 之 前 进行 分 块 ， 而 codistributed( ) 
在 spmd 块 内 部 对 矩阵 分 块 。 由 于 和 矩阵 分 配 的 主要 目的 是 处 理由 于 太 大 而 无 法 由 单 
个 内 核 处 理 的 大 和 矩 了 泗 ， 因 此 在 客户 端 创建 一 个 大 答 阵 ， 然 后 分 配 到 多 个 worker 
(使 用 distributed( )) 这 种 方法 的 效率 较 低 。 在 许多 情况 下 ， 用 codistributed( ) 直接 
在 多 个 worker 上 创建 分 布 式 和 矩阵 更 好 。 之 前 使 用 distributed 函数 的 dist_first.m 例 
子 可 以 用 codistributed 消 数 修改 成 如 下 的 内 容 。 虽 然 分 配 的 方式 改变 了 ， 但 是 结果 
和 dist firstm 例子 相同 。 
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$6 codist first.m 


spmd 
A= rand(2,8); 
dA = codistributed (A); 
localPart = getLocalPart(dA); 
end 


这 个 例子 依然 是 先 构造 矩阵 A， 然 后 在 spmd 块 内 分 配给 worker。 在 这 种 情况 
下 ， 每 个 worker 各 目 都 有 和 矩阵 A 的 复 本 ， 这 比 dist_first.m 的 例子 效率 更 低 。 为 了 
充分 利用 codistributed 函数 的 优点 ， 可 以 用 codistributed.rand 函数 初始 化 矩阵 A, 
而 不 是 在 客户 姗 构造 正则 和 窍 阵 。 


5 codist rand .nm 





spmd 
dA = codistributed.rand(2,8); 
localPart = getLocalPart(dA); 
end 
codist rand.m 用 codistributed.rand( ) 函数 直接 在 各 个 worker 上 以 分 布 式 的 形 
TUM AEM. BRS codistributed.rand( ) äi ak, MATLAB 还 提供 了 大 量 的 加 


数 ， 文 持 在 各 个 worker 上 分 布 式 构造 矩阵 ， 如 下 所 未 : 




















codistributed.cell 创建 分 布 式 元 胞 数组 
codistributed.colon 分 布 式 冒号 操作 
codistributed.eye 创建 分 布 式 单位 阵 
codistributed.false 创建 分 布 式 “ 否 ” 数 组 
codistributed.Inf 创建 分 布 式 无 穷 大 数组 
codistributed.NaN 创建 分 布 式 非 数 数组 
codistributed.ones 创建 分 布 式 全 1 数组 
codistributed.rand 创建 分 布 式 均匀 分 布 伪 随 机 数 数组 
codistributed.randn 创建 分 布 式 正 态 分 布 随机 数 数组 
codistributed.spalloc TER REREAD Be i] 
codistributed.speye Qe Eë PE 
codistributed.sprand & ty AB IY 53 4 f Th BUD LU A, 
codistributed.sprandn CET n SOS A Th BEL H 
codistributed.true 创建 分 布 式 “ 真 ” 数 组 
codistributed.zeros 创建 分 布 式 全 零 数 组 








在 各 个 worker 计算 后 ， 需 要 将 同 分 布 矩 阵 还 诛 为 非 分 布 式 的 大 矩阵 时 ， 可 以 
使 用 gather( ) 函数 进行 恢复 : 
5 codist gather.m 


spmd 
dA = codistributed.ones(500,500); 
localPart = getLocalPart(dA); 
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end 


A = gather(dA); 


当 用 4 个 worker 运行 程序 codist gather.m I, EP miit EH gather( ) pk Sr 
将 4 个 500x125 FERRER IFA“ 500x500 KAHERE: 


>> codist gather 
>> localPart 


localPart = 
Lab 1: class = double, size = [500 125] 
Lab 2: class double, size = [500 125] 


Lab 3: class = double, size = [500 125] 
Lab 4: class = double, size = [500 125] 


>> size(A) 


ans = 
500 500 


5.5.3 ”多 个 GPU 时 的 worker 


如 前 所 述 ， 并 行 计 算 工 具 箱 内 的 worker 默认 共享 CPU 内 核 。 因 此 ， 如 果 用 户 
的 计算 机 只 有 一 个 GPU， 而 多 个 worker 试图 访问 GPU， 那么 将 不 能 期 望 获 大 得 加 
速 。 在 很 多 情况 下 ， 这 会 使 整个 程序 比 不 末 用 GPU 而 只 使 用 多 个 worker 更 慢 ， 这 
是 由 于 各 个 并 行 运行 的 worker (CDU 核 ) 传递 数据 给 GPU 设备 必须 串 行 进行 造成 
的 。 然 而 ， 如 采用 户 的 计算 机 有 与 CPU 核 数 量 相当 的 多 个 GPU， 那 么 多 个 worker 
会 工作 得 很 好 。 在 这 种 情况 下 ， 我 们 依据 GPU 设备 ID 明确 地 为 每 个 worker 分 配 
GPU a, FS ZEE GPU 的 多 核 计 算 机 当前 还 不 普通 ， 因 此 本 书 将 不 涉及 在 
多 个 GPU 上 运行 多 个 worker 的 情况 。 














5.6 xÆ emex 的 CUDA 文件 直接 使 用 


“Sb AL A ER RINT WE SE LI 和 箱 时 ， 可 以 采用 c-mex 文件 在 GPU 上 
运行 CUDA 文件 (.cu 文件 )， 这 部 分 内 容 在 第 2 章 中 已 经 介绍 过 。 当 有 并 行 
计算 工具 箱 时 ， 可 以 直接 在 GPU 上 运行 CUDA 文件 ， 而 不 需要 c-mex 文件 。 
在 这 种 情况 下 ， 我 们 无 需 编 详 c-mex 文件 ， 只 需 对 CUDA 文件 进行 nvcc 编 详 
BU ol. 

我 们 打算 对 AddVectors.cu 的 例子 进行 微调 ， 该 例 在 第 2 革 中 用 于 c-mex. 3X 
里 是 AddVectors noCmex.cu XF. Ht. AddVectors noCmex.cu 文件 只 有 CUDA 
内 核 部 分 C global void AddVectors noCmex( )), 5$ 2 HP AddVectors.cu 不 
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同 ， 该 文件 具有 CUDA 存储 器 配置 和 与 c-mex 接口 相关 的 存储 复制 。 
// AddVectors noCmex.cuwith Parallel Computing Toolbox 


J. global void AddVectors noCmex(double* A, double* B) 
{ 
int i = threadIdx.x; 


ACi]+= Bil: 
} 
在 MATLAB 中 直接 使 用 .cu 文件 的 基本 流程 如 下 所 示 : 


1)nvcc —ptx AddVectors noCmex.cu 


在 shell (DOS EX Linux shell) 内 ， 应 该 在 NVIDIA CUDA 工具 箱 内 加 -ptx 3€ 
项 ， 使 用 nvcc 编译 cu 文件 生成 ptx 文件 。 也 可 以 在 MATLAB 指令 窗口 内 使 用 如 
下 system 指令 运行 这 一 shell 指令 : 


system('nvcc -ptx AddVectors_noCmex.cu -ccbin 
"C:\ProgramFiles(x86)\Microsoft Visual Studio 10.0\VC\bin"' ); 


虽然 我 们 不 编译 c-mex WF, (AEM C/CH SWEATY nvec 编 详 cu X 
件 ， 这 是 因为 cu 文件 具有 C/C++ 格式 ， 并 且 mee 转发 全 部 非 CUDA 编译 步骤 到 
C/C++ 编译 器 。 如 果 你 的 系统 没有 指 问 C/C++ 编译 器 (例如 clexe) 的 路 径 ， 接 下 来 
可 以 用 -ccbin 选项 确定 路 径 。 关 于 从 NVIDIA 网 站 安装 nvcc 可 参考 第 2 8. 3S, 
MI NVIDIA CUDA 工具 箱 会 目 动 创 建 路 径 指 癌 nvcc.exe fi (C:\Program 
Files\NVIDIA GPU Computing ToolkiACUDAYvS.0\bin)。 不 过 ， 如 果 由 于 某 些 原因 没有 
创建 指 回 该 位 置 的 路 径 ， 那 么 需要 在 运行 前 添加 addpath((C:\Program Files\NVIDIA 
GPU Computing ToolkiNCUDA\v5.0\bin'") 指 令 : 





2) myCu = parallel.gpu.CUDAKernel ('AddVectors_noCmex.ptx', 'AddVectors_ 
noCmex.cu'); 


使 用 相同 文件 名 的 ptx 与 cu 文件 ， 由 parallel.gpu.CUDAKernel( ) 函数 生成 
CUDA mäi. “4 cu 文件 由 多 个 函数 组 成 时 ， 可 以 按照 下 面 的 方法 指定 入 口 点 
T M 


myCu = parallel.gpu.CUDAKernel('AddVectors noCmex.ptx', "'AddVectors 
noCmex','AddVectors noCmex.cu'); 





3) CuOut = feval(myCu, A, B) 
通过 CUDA 对 象 AddVectors noCmex 的 函数 句柄 myCu， 有 两 个 输入 实 参 


CERE A 和 BO DI feval 函数 运行 。 下 面 的 nvec_noCmex.m 文件 展示 了 编 详 cu XC 
件 、 生 成 CUDA 对 和 象 和 使 用 测试 输入 运行 的 全 部 代码 : 
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^ nvcc noCmex.m 


5 Use the following when MS Visual Studio 2010 or later 
system('nvcc -ptx AddVectors noCmex.cu -ccbin "C:\Program Files (x86) 
Microsoft Visual Studio 10.0\VC\bin"'); 


myCu = parallel.gpu.CUDAKernel('AddVectors noCmex.ptx','AddVectors. 
noCmex.cu'); 


A=single([12345678910]); 
B-single([10987654321]); 


N = length(A) 
myCu. ThreadBlockSize = N 


CuOut = feval(myCu, A, B) 
当 运 行 这 一 代码 时 ， 有 如 下 结果 : 


>> nvcc noCmex 

AddVectors noCmex.cu 

tmpxft 00001328 00000000-5 AddVectors noCmex.cudafel.gpu 
tmpxft 00001328 00000000-10 AddVectors noCmex.cudafe2.gpu 


N = 
10 


parallel.gpu.CUDAKernel handle 
Package: parallel.gpu 


Properties: 
ThreadBlockSize: 35) T 3E] 


MaxThreadsPerBlock: 1024 
GridSize: [11] 
SharedMemorySize: 0 
EntryPoint: ' 41/AddVectors noCmexPdS ' 
MaxNumLHSArguments: 2 
NumRHSArguments: 2 
ArgumentTlypes: { inout double vector' 'inout double 
vector'] 


Methods, Events, Superclasses 


CuOut = 
LA dli dL iL di di ili db di 1i 
通过 MATLAB 指令 myCu.ThreadBlockSize = N (这 里 N=10 为 向 量 A 的 长 
RE), ThreadBlockSize 设 为 [10 1 1]. ThreadBlockSize 控制 AddVectors noCmex.cu 
里 的 i = threadIdx.x, 7E GPU 中 实现 对 10 个 元 素 进行 并 行 加 法 ， 结 果 为 10 个 数 
据 元 素 均 为 11。 如 果 把 myCu.ThreadBlockSize 的 值 都 改 为 8， 如 下 所 示 ， 最 后 两 
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% nvcc noCmex2.m 


system('nvcc -ptx AddVectors noCmex.cu -ccbin "C:\Program Files (x86) 
Microsoft Visual Studio 10.0\VC\bin"'); 


myCu = parallel.gpu.CUDAKernel('AddVectors noCmex.ptx', 'AddVectors. 
noCmex.cu'); 


A=single(L123456/78910]); 
B=single(L10987654321)); 


N= length(A) 
myCu. ThreadBlockSize = N-2 


CuOut = feval(myCu, A, B) 


>> nvcc noCmex2 


myCu = 
parallel.gpu.CUDAKernel handle 
Package: parallel.gpu 


Properties: 
ThreadBlockSize: [811] 

MaxThreadsPerBlock: 1024 
GridSize: [11] 

SharedMemorySize: 0 

EntryPoint: ' 417AddVectors noCmexPdS ' 
MaxNumLHSArguments: 2 
NumRHSArguments: 2 
ArgumentTypes: {'inout double vector' 'inout double 
vector'} 


Methods, Events, Superclasses 


CuOut = 
11 11 11 11 11 11 11 11 9 10 





除了 使 用 c-mex 接口 ，AddVectors.cu E AddVectors noCmex.cu 的 主要 区 别 是 
CUDA 核 函 数 实 参 的 数 日 : 
// AddVectors noCmex.cuwith Parallel Computing Toolbox 


. global void AddVectors noCmex(double* A, double* B) 
{ 


int i = threadIdx.x; 


ALi] + = BLil; 


// AddVectors.cu in Chapter 2 with C-mex 
. global voidaddVectorsKernel(float* A, float* B, float* C, int size) 
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int i 2blockIdx.x:; 
if (i >=size) 
return; 


CLiJ=ALi]+BLil]; 
} 
在 第 2 PH AddVectors.cu 例子 中 ，c-mex DI CUDA FEIT CaddVectorsKernel( )) 

在 c-mex 运行 后 被 其 他 函数 调用 ， 因 此 用 户 可 以 自由 地 规定 实 参 的 数量 和 顺序 。 不 
it, MATLAB žit feval( ) 通过 parallel.gpu.CUDAKernel 直接 使 用 的 CUDA TERZA 
( addVectorsKernel( ) )， 则 应 该 导 循 严格 的 规则 。 当 调用 [output1，output2] = 
feval(CUDA Kernel，input1，input2，input3) 时 ，inputl input2 和 input3 应 该 与 
CUDA Kernel 函数 的 输入 实 参 一 致 。 如 果 有 两 个 以 上 输入 实 参 ， 那 么 前 两 个 输入 实 
参 用 作答 出 实 参 ;如 采 有 两 个 或 者 更 少 的 输入 实 参 ， 那 么 仅 第 一 个 输入 实 参 用 作答 
出 实 参 。 可 以 通过 CUDA 核 函数 句柄 来 核实 CUDA 核 函 数 的 属性 : 


>>myCu 














myCu = 
parallel.gpu.CUDAKernel handle 
Package: parallel.gpu 


Properties: 
ThreadBlockSize: [1011] 

MaxThreadsPerBlock: 1024 
GridSize: [11] 

SharedMemorySize: 0 

EntryPoint: "_Z17AddVectors_noCmexPdS_' 
MaxNumLHSArguments: 2 
NumRHSArguments: 2 
ArgumentTypes: { inout double vector’ 'inout double 
vector' } 


Methods, Events, Superclasses 


这 里 ， 可 以 看 到 ArgumentTypes BAWA inout 的 描述 。inout 表明 了 这 两 个 实 
参 既 可 以 用 于 输入 ， 也 可 以 用 于 输出 。 下 面 看 一 个 很 简单 的 例子 : 
// Simple noCmex.cu with Parallel Computing Toolbox 


. global. voidSimple noCmex(double* A, double val) 


{ 
int 1 = threadIdX.Xx; 


ALi] + = val; 


% simple noCmex.m 
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system('nvcc -ptx Simple noCmex.cu -ccbin "C:\Program Files (x86) 
Microsoft Visual Studio 10.0\VC\bin"'); 


handleCu-parallel.gpu.CUDAKernel('Simple noCmex.ptx', 
'Simple noCmex.cu'); 


ÀA-—single([12345678910)]); 
handleCu.ThreadBlockSize = length(A); 


CuOut = feval(handleCu, A, 5.0) 

>> simple noCmex 

Simple noCmex.cu 

tmpxft 00001bdc 00000000-5 Simple noCmex.cudafel.gpu 
tmpxft 00001bdc 00000000-10 Simple noCmex.cudafe2.gpu 


CuOut = 
6 7 8 9 10 11 12 13 14 15 


>> handleCu 


handleCu = 
parallel.gpu.CUDAKernel handle 


Package: parallel.gpu 


Properties: 
ThreadBlockSize: [1011] 
MaxThreadsPerBlock: 1024 
GridSize: [11] 
SharedMemorySize: 0 

EhtryPo1nts ' Z13Simple noCmexPdd' 
MaxNumLHSArguments: 1 
NumRHSArguments: 2 
ArgumentTypes: { inout double vector' ‘in double 


scaler” | 
Methods, Events, Superclasses 
在 这 个 简单 的 CUDA FP (Simple noCmex.cu) 中 ， 核 心 句柄 ChandleCu) 性 
质 显示 一 个 inot 实 参 和 一 个 in 实 参 。 最 后 一 行为 核 疯 数 的 返回 类 型 ， 始 终 应 该 为 
void 类 型 ， 而 输出 值 应 该 存 回 第 一 个 或 第 二 个 输入 实 参 中 。 
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c-mex 配置 为 运行 MATLAB 程序 增加 了 很 多 可 能 性 。 通 过 调用 现成 的 CUDA 
加 速 库 ， 能 做 的 甚至 能 远 远 超 出 MATLAB 的 极限 。 在 c-mex 中 运用 其 他 第 三 方 函 
数 库 与 普通 C/VC++ 编 程 没 有 什么 区 别 。 
本 章 将 学 习 以 下 内 容 : 
€ MATLAB 通过 c-mex 调用 CUDA 基本 线性 代数 子 程序 (CUDA Basic 
Linear Algebra Subroutines，CUBLAS )。 
€ MATLAB 通过 c-mex 调用 CUDA 快速 傅 里 时 变换 库 (CUDA FFT library, 
CUFFT )。 
e 在 基于 标准 模板 库 (Standard Template Library, STL) 的 CUDA 中 插入 
C++ 便 板 库 。 

















6.2 CUBLAS 


CUBLAS 是 NVIDIA 提供 的 用 于 GPU 加 速 的 基本 线性 代数 子 程序 (Basic 
Linear Algebra Subroutines, BLAS) 库 。 它 把 CUDA 过 程 进 行 了 封装 ， 因 此 我 们 
可 以 在 c-mex 中 较 高 的 API 级 别 上 使 用 它 ， 而 无 需 接触 CUDA 的 核心 内 容 。 本 和 章 
将 通过 实例 讲解 在 c-mex 函数 中 调用 CUBLAS FE. 

在 用 CUBLAS 编号 c-mex 函数 之 前 ， 首 移 我 们 了 解 一 些 有 用 信息 。CUBLAS 
与 NVIDIA CUDA 一 起 发 布 ， 在 如 下 的 CUDA 安装 路 径 中 可 以 找到 CUBLAS 的 
国 数 库 和 头 文 件 。 注 意 ， 如 果 不 是 采用 默认 安 帮 ， 系 统 中 确切 的 安 狂 路径 可 能 与 
以 下 路 径 有 所 不 同 。 与 前 面 章节 中 列举 的 例子 不 同 ， 这 次 没有 调用 CUDA iks 
nvcc， 在 函数 中 只 调用 了 CUDA 和 CUBLAS 运行 时 库 。 

e 编 详 时 需要 的 头 文 件 : 

cublas v2.h 

cuda runtime.h 


e 链接 时 需要 的 函数 库 : 
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cublas.lib, cudart.lib Windows 
libculas.dylib, libcudart.dylib Mac OS X 
libculas.so, libcudart.so Linux 


这 些 文件 一 般 在 以 下 路 径 中 : 
Windows 64 位 操作 系统 : 


C:\Program Files\NVIDIA GPU ComputingToolkit\CUDA\v5.0\1ib\x64\cublas.1ib 
C:\Program Fiels\NVIDIA GPU Computing Toolkit\CUDA\v5.0\include\cublas_v2.h 


Windows 32 位 操作 系统 : 


C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v5.0\lib\Win32\cublas.lib 
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v5.0\include\cublas_v2.h 


Mac OS X 操作 系统 : 


/Developer/NVIDIA/CUDA-5.0/lib/libcublas.dylib 
/Developer/NVIDIA/CUDA-5.0/include/cublas_v2.h 


Linux 32 位 操作 系统 : 
/usr/local/cuda-5.0/lib/libcublas.so 
/usr/local/cuda-5.0/include/cublas v2.h 
Linux 64 位 操作 系统 : 
/usr/local/cuda-5.0/1ib64/1ibcublas.so 
/usr/local/cuda-5.0/include/cublas v2.h 
在 c-mex 函数 中 会 调用 这 些 文件 ， 因 此 在 学 习 下 一 小 节 内 容 之 前 一 定 要 找到 
并 确认 这 些 文件 在 系统 中 的 位 置 。 
6.2.4 CUBLAS ër 


与 MATLAB 一 样 ， 在 CUBLAS 函数 库 中 ， 数 据 按 列 排列 。 这 是 一 个 很 大 的 
优势 ， 尤 其 是 在 c-mex 编程 中 ， 不 需要 考虑 c-mex 和 我 们 感 兴趣 的 库 之 间 数 据 排 
列 顺序 的 不 同 。 同 样 ， 因 为 函数 库 提 供 了 一 系列 重要 是 有 用 的 线性 代数 函数 ， 我 
们 可 以 很 容易 地 找 出 与 原来 MATLAB 程序 对 应 的 部 分 。 当 在 MATLAB 程序 中 处 
理 一 个 大 数据 集 时 ， 可 以 发 现 CUBLAS 可 广泛 用 于 程序 加 速 。 

CUBLAS 函数 可 以 分 为 四 类 : 辅助 函数 、level-1l 函数 、level-2 函数 和 level-3 
浮 数 。 辅 助 函 数 主要 提供 处 理 GPU 和 内 存 资源 包括 数据 副本 的 方法 。 调 用 这 些 也 
数 时 ， 不 需要 调用 CUDA 运行 时 库 ， 表 6.1 列举 了 其 中 部 分 图 数 。 表 6.2—3 6.4 
列举 了 level-1~level-3 HJ RIŽU. 
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表 6.1 提供 硬件 资源 控制 的 CUBLAS 辅助 函数 

















函数 名 函数 功能 
cublasCreate 初始 化 CUBLAS 库 ， 必 须 在 所 有 CUBLAS 库 调 用 之 前 调用 
cublasDestroy 释放 CUBLAS 库 占 用 的 硬件 资源 
cublasSetVector 把 主机 存储 空间 中 的 向 量 元 素 复 制 到 GPU 存储 空间 的 向 量 中 
cublasGetVector 把 GPU 存储 空间 中 的 向 量 元 素 复 制 到 主机 存储 空间 的 向 量 中 
cublasSetMatrix E BUG TRO P RR EEG RR E le GPU 存储 空间 的 矩阵 中 
cublasGetMatrix 把 GPU FF hh E P IEEE we R ll) ENLA scil ARR E P 





A62 ”进行 基于 标量 和 向 量 运算 的 CUBLAS Level-1 函数 




















PAN X 函数 功能 
cublasIsamax 找到 单 精度 向 量 中 最 大 值 元 素 的 索引 
cublasIdamax PRB MF E EPEN ERR] 
cublasSaxpy 问 量 与 一 个 标量 相 乘 ， 并 将 它 加 到 另 一 个 单 精 度 回 量 中 
cublasDdot 计算 两 个 双 精 度 癌 量 的 点 积 
cublasScrm2 计算 单 精 度 复数 癌 量 的 欧 几 里 得 范 数 


表 6.3 ”进行 矩阵 和 向 量 运算 的 CUBLAS Level-2 函数 








PA X 函数 功能 
cublasSgemv 单 精度 矩阵 和 问 量 相 乘 
cublasDsbmv UES EXT BR He RAE EAM [8] Te TH SIE 
cublasCsymv EL ag Or lr Dir A [8] AH SHE 
cublasZhemv XU BE ECOUTER BEA [8] 5 AR 
cublasCher2 REESEN 


SS 6.4 进行 矩阵 和 矩阵 运算 的 CUBLAS Level 3 函数 








函数 名 函数 功能 
cublasSgemm 单 精 度 和 矩阵 乘法 
cublasZgemm 双 精 度 复数 矩阵 乘法 
cublasDtrmm 双 精 度 复数 三 角 和 矩阵 乘法 
cublasChemm 里 精度 复数 尼 米 特 和 矩阵 乘法 
cublasCher2k 里 精度 复数 厄 米 特 秩 2k 更 新 


6.2.0 CUBLAS ik fae: 
本 节 通 过 例子 讲解 进行 简单 的 官 阵 与 矩阵 溢 法 的 具体 步骤 ， 即 
C= AxB 
Hm, EREA 的 大 小 是 MXN, FEM BAA) aE NXP, WAAR CAA) at MP. 
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1. 步骤 1 

FIF MATLAB 命令 窗口 ， 创 建 一 个 新 文件 ， 将 其 保存 为 cublasDemo.cpp。 
2. ZR 

在 空 文件 cublasDemo.cpp 中 ， 输 入 以 下 代码 : 


#include "mex.h" 


Void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray 
*prhsL]) 

| 

} 


正如 你 可 能 记 住 的 那样 ， 这 是 一 个 衬 的 子 例 行 程序 ， 并 从 这 开始 c-mex 程序 。 

3. 步骤 3 

接 下 来 ， 检 查 输入 数据 类 型 是 单 精 度 还 是 浮 点 。 然 后 ， 我 们 获得 输入 矩阵 A 
和 B 的 指针 以 及 它们 的 大 小 。 为 简单 起 见 ， 假 设 输入 数据 类 型 是 单 精度 ， 人 否则 退 
出 编程 : 


##include "mex.h" 














void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray 
*prhs[ ]) 


{ 
if (nrhs ! = 2) 
mexErrMsgTxt("Invaid number of input arguments"); 


if (ImxIsSingle(prhs[0]) && !mxIsSingle(prhs[1])) 
mexErrMsgTxt(" input matrices must be single"); 


float* A = (float*)mxGetData(prhs[0]); 
float* B = (float*)mxGetData(prhs[1]); 


int numARows — mxGetM(prhs[0]); 
int numACols = mxGetN(prhs[0]):; 
int numBRows = mxGetM(prhs[1]); 
int numBCols 2 mxGetN(prhs[1]); 


If (numACols ! = numBRows ) 
mexErrMsgTxt("Invalid matrix dimension"); 
j 


4. 步骤 4 
生成 输出 矩阵 C， 它 的 大 小 由 矩阵 44 的 行 数 和 矩阵 吾 的 列 数 决定 : 
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#include "mex.h" 


void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray 
*prhst]) 
{ 
if (nrhs ! 2 2) 
mexErrMsgTxt("Invaid number of input arguments"); 


if CImxIsSingle(prhs[0]) && !mxIsSingle(prhs[1])) 
mexErrMsgTxt("input matrices must be single"); 


float* A= (float*)mxGetData(prhs[0]); 
float* B = (float*)mxGetData(prhs[1]): 


int numARows = mxGetM(prhs[0]); 
int numACols = mxGetN(prhs[0]); 
int numBRows = mxGetM(prhs[1]); 
int numBCols = mxGetN(prhs[1]); 
int numCRows = numARows ; 
int numCCols = numBCols; 


plhs[0] = mxCreateNumericMatrix(numCRows, numCCols, mxSINGLE 
CLASS, mxREAL) ; 
float* C = (float*)mxGetData(plhs[0]); 
j 
5. DIRS 
现在 在 GPU 设备 上 创建 用 于 存储 矩阵 数据 的 存储 空间 。 分 别 用 cudaMalloc 和 
cudaFree 函数 来 分 配 和 释放 内 存 。 这 些 函 数 在 cuda runtime.h 中 定义 ， 所 以 在 程序 
最 开始 的 地 方 要 声明 这 个 头 文件 : 


#include "mex.h" 
#include <cuda_runtime.h> 





void mexFunction(int nlhs, mxArray *plhsLJ, int nrhs, const mxArray 
*prhs[]) 
{ 


it (nrns 1 = 2) 
mexErrMsgTxt("Invaid number of input arguments"); 


if (!mxIsSingle(prhslO]) && !ImxIsSingle(prhs[1])) 
mexErrMsgTxt( "input matrices must be single"); 


float* A = (float*)mxGetData(prhs[0]); 
float* B= (float*)mxGetData(prhs[1]); 
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int numARows = mxGetM(prhs[0]); 
int numACols = mxGetN(prhs[0]); 
int numBRows = mxGetM(prhs[1]); 
int numBCols = mxGetN(prhs[1]); 
int numCRows = numARows ; 
int numCCols = numBCols; 


plhsL0] = mxCreateNumericMatrix(numCRows, numCCols, mxSINGLE . 
CLASS, mxREAL) ; 
float* C = (float*)mxGetData(plhs[0]); 


float *deviceA, *deviceB, *deviceC; 

cudaMalloc(&deviceA, sizeof(float) * numARows * numACols); 
cudaMalloc(&deviceB, sizeof(float) * numBRows * numBCols); 
cudaMalloc(&deviceC, sizeof(float) * numCRows * numCCols); 


// insert cuBLAS function(s) here 


cudaFree(deviceA); 

cudaFree(deviceB); 

cudaFree(deviceC); 
} 


可 以 注意 到 ， 我 们 只 是 分 配 和 释放 了 GPU 中 的 内 存 ， 把 CUBLAS 代码 插入 
其 中 。 

6. DIR 6 

现在 开始 添加 CUBLAS 代码 。 首 先 在 程序 开始 部 分 添加 另 一 个 头 文件 
cublas v2.h: 


incl ude "mex.h" 
#include <cuda_runtime.h> 
#include <cublas_v2.h> 


void mexFunction(int nlhs, mxArray *plhsL], int nrhs, const mxArray 
*prhsL]) 
{ 
it inbhs be 2) 
mexErrMsgTxt("Invaid number of input arguments"); 


if (ImxIsSingle(prhs[0]) && !ImxIsSingle(prhsL1])) 
mexErrMsgTxt("input matrices must be single "); 


float* A = (float*)mxGetData(prhs[0]); 
float* B = (float*)mxGetData(prhs[1]); 
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int numARows = mxGetM(prhs[0]); 
int numACols = mxGetN(prhs[0]); 
int numBRows = mxGetM(prhs[1]); 
int numBCols = mxGetN(prhs[1]); 
int numCRows = numARows; 
int numCCols = numBCols; 


plhs[0] = mxCreateNumericMatrix(numCRows, numCCols, mxSINGLE_ 
CLASS, mxREAL) ; 
float* C 2 (float*)mxGetData(plhs[0]); 


float *deviceA, *deviceB, *deviceC; 

cudaMalloc(&deviceA, sizeof(float) * numARows * numACols); 
cudaMalloc(&deviceB, sizeof(float) * numBRows * numBCols); 
cudaMalloc(&deviceC, sizeof(float) * numCRows * numCCols); 


cublasHandle t handle; 
cublasCreate(&handle); 
cublasSetMatrix(numARows, 
numACols, 
sizeof(float), 
A, 
numARows, 
deviceA, 
numARows) ; 
cublasSetMatrix(numBRows, 
numBCols, 
sizeof(float), 
B, 
numBRows, 
deviceB, 
numBRows ) ; 


cublasDestroy(handle); 
cudaFree(deviceA); 
cudaFree(deviceB); 
cudaFree(deviceC); 

j 


头 文件 cublas v2.h 中 包含 了 CUBLAS 库 的 函数 原型 。 首 先 创 建 CUBLAS fJ 
柄 ， 最 后 通过 调用 cublasDestroy(...) 删除 句柄 ， 这 是 我 们 调用 所 有 CUBLAS 函数 之 
前 要 做 的 事情 。 人 然后， 通过 调用 cublasSetMatrix(...) 来 准备 和 矩阵， 这 样 可 以 将 矩阵 从 
主机 存储 空间 复制 到 分 配 好 的 GPU 设备 存储 空间 中 去 。 注 意 ， 将 数据 移动 到 GPU 设 
备 时 ， 我 们 并 没有 调用 cudaMemcoy(...)， 这 里 因为 文件 cublasSetMatrix(...) 已 经 在 后 
台 完 成 了 这 一 工作 。 
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7. t RT 

Ak de FR ASM al A H A Dir Hr FE Dr A IE EZ. PCublasSgemm(...)， 这 个 函数 在 
GPU 上 进行 实际 的 运算 。 正 如 它 的 函数 名 一 样 ， 这 个 函数 的 作用 是 实现 单 精度 数 
据 类 型 的 矩阵 相 乘 。 

#include "mex.h" 


#include <cuda_runtime.h> 
jHinclude <cublas_v2.h> 





void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray 
*prhs[ li 
{ 
if (nrhs ! 2 2) 
mexErrMsgTxt("Invaid number of input arguments"); 


if (ImxIsSingle(prhs[0]) && !ImxIsSingle(prhs[1])) 
mexErrMsgTxt("input matrices must be single"); 


float* A = (float*)mxGetData(prhs[0]); 
float* B = (float*)mxGetData(prhs[1]); 


int numARows = mxGetM(prhs[0]); 
int numACols = mxGetN(prhs[0]); 
int numBRows = mxGetM(prhs[1]); 
int numBCols = mxGetN(prhs[1]); 
int numCRows = numARows ; 
int numCCols = numBCols; 


plhsLO] = mxCreateNumericMatrix(numCRows, numCCols, mxSINGLE 
CLASS, mxREAL) ; 
float* C = (float*)mxGetData(plhsL[0]):; 


float *deviceA, *deviceB, *deviceC; 

cudaMalloc(&deviceA, sizeof(float) * numARows * numACols); 
cudaMalloc(&deviceB, sizeof(float) * numBRows * numBCols); 
cudaMalloc(&deviceC, sizeof(float) * numCRows * numCCols); 


cublasHandle t handle; 

cublasCreate(&handle) ; 

cublasSetMatrix(numARows, 
numACols, 
sizeof(float), 
A, 
numARows, 
deviceA, 
numARows); 
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cublasSetMatrix(numBRows, 
numBCols, 
sizeof(float), 
B, 
numBRows, 
deviceB, 
numBRows) ; 


float alpha =1.0f; 

float beta = 0.0f; 

cublasSgemm(handle, 
CUBLAS OP N, 
CUBLAS OP N, 
numARows , 
numBCols, 
numACols, 
&alpha, 
deviceA, 
numARows, 
deviceB, 
numBRows , 
&beta, 


deviceC, 
numCRows) ; 


cublasGetMatrix(numCRows , 
numCCols, 
sizeof(float), 
deviceC, 
numCRows, 

Ga 
numCRows ) ; 


cublasDestroy(handle); 
cudaFree(deviceA); 
cudaFree(deviceB); 
cudaFree(deviceC); 

j 


文件 cublasSgemm(...) 完成 所 有 低层 次 CUDA 工作 ， 并 日 将 结果 返回 到 为 矩阵 C 
分 配 的 GPU 内 存 中 ， 然 后 文件 cublasGetMatrix(...) 将 结果 从 GPU 存储 空间 复制 到 主机 
存储 中 。 我 们 不 需要 设置 数据 的 线程 块 和 线程 的 大 小 ，CUBLAS 会 目 动 设 定 它 们 的 维 
上 度 ， 执 行内 核 函 数 ， 并 返回 输出 结果 。 

8. 步 又 8 

现在 c-mex 编 公 完成 ， 进 入 MATLAB 命令 窗口 ， 输 入 mex 命令 来 实际 运行 
程序 : 
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mex cublasDemo.cpp -lcudart -lcublas -L"C:\Program Files\NVIDIA GPU 
Computing Toolkit\CUDA\v5.0\1ib\x64" -v -I"C:\Program Files\NVIDIA GPU 
Computing Tool kit\CUDA\v5.0\include" 


其 中 ， 各 选项 含义 如 下 : 
€ -lcudart: 表明 在 调用 CUDA 运行 时 库 。 有 具体 而 言 ， 我 们 在 调用 两 个 基本 
CUDA 函数 cudaMalloc(...) 和 cudaFree(...)。 

@ -lcublas: 表明 在 调用 CUBLAS 库 。 具 体 而 言 ， 我 们 在 调用 cublasXXX 

e -Ldir dir 是 CUDA 和 CUBLAS 库 所 在 的 目录 。 

e -Idir: dir 是 CUDA 和 CUBLAS 头 文件 所 在 的 目录 。 

9. 步骤 9 

在 Windows 64 位 操作 系统 中 ， 运 行 步骤 8 中 的 MATLAB 命令 会 生成 c-mex 
文件 cublasDemol.mexw64, 1E MATLAB 命令 窗口 中 调用 生成 的 函数 来 进行 乘法 
VERE: 

>> A=single(rand(200, 300)); 


>> B=single(rand(300, 400) ); 
>> C = cublasDemo(A, B); 


可 以 用 cublasExample.m 在 示例 代码 目录 中 测试 这 些 代码 。 











6.2.3 ”使 用 Visual Profiler 进行 CUBLAS 分 析 


让 我 们 使 用 NVIDIA Visual Profiler 对 CUBLAS 函数 cublasSgemm(...) 做 更 深 
入 的 了 解 。NVIDIA Visual Profiler 除了 分 析 运 行 时 间 外 ， 还 可 以 了 解 程序 运行 时 的 
Hit, 

首先 ， 打 开 NVIDIA Visual Profiler， 然 后 如 第 3 章 的 介绍 ， 通 过 分 析 堪 打开 
MATLAB, = MATLAB 窗口 打开 后 ， 将 我 们 编 详 的 c-mex 文件 所 处 位 置 设 置 为 当 
前 工作 路 径 ， 然 后 如 图 6.1 所 示 运 行 c-mex 函数 。 











File Edit View Debug Parallel Desktop Window Help 
NS 4 3 o (d ri E) | Q Current Folder: CAjunkWMatlabMeetsCuda Hello 
Shortcuts Al Howto Add Al What's New 
"E " Command Window 
>> A = single(rand(200, 300)):; 
>> B = single(rand(300, 400)):; 
C = cublasDemo(A, B); 


t£] conv2MexOptB.obj 
conv2MexOptB.cu E 

| conv2MexOptA.obj 
conv2MexOptA.cu 
conv2MexCuda.me... 


€'conv2MexCuda.cpp ~ 
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运行 c-mex 函数 后 ， 关 闭 MATLAB 窗口 退出 程序 的 执行 。MATLAB 关闭 
后 ， 返 回 NVIDIA Visual Profiler， 这 时 NVIDIA Visual Profiler 会 停止 对 MATLAB 
的 信息 收集 并 在 窗口 中 生成 结果 ， 如 图 6.2 所 示 。 

















OE Properties £2 ` [E Detail Graphs "D 
1 gen sgemmNN valí(float const *, int, float const *, int 一 
Value 
979472 ms 
978.836 ms 


$126 ms 
100% 





` Low Compute Utilization [ 5.126 ms / 979.472 ms = 0.5%] 


Analyze Kernel (select in timeline) The multiprocessors of one or more GPUs are mostly idle. 


Stages 1 SS , Low Memcpy/Compute Overlap [ 0 ns / 226.912 e = 0% ] 
^. Reset All oy, Analyze AN = The percentage of time when memcpy is being performed in parallel with compute is low. 


Tere | ^ Low Memcpy Throughput [ 20.6 MB/s avg. for memcpys accounting for 2.3% of all memcpy time ] 
s The memory copies are not fully using the available host to device bandwidth. 


62 Hj NVIDIA Visual Profiler 运行 cublasDemo 


将 CUBLAS 函数 调用 的 地 方 展开 ， 展 开 后 除了 时 间 分 析 外 ， 还 给 出 了 其 他 
细节 ， 如 图 6.3 Pras. 


Profiling Overhead 
=| 四 GeForce 9400 
= Context 1 (CUDA) 
Y MemCpy (HtoD) 
Y MemCpy (Otoh) 





[3 Analysis | "cj Details 23 ~^ DI Console | CH Settings 

Name Start Time Duration Grid Size Block Size Regs 

Memcpy HtoD [sync] 972859 ms 5184 ys n/a n/a n/a n/a na = 112 bytes 20.6 MB/s 
Memcpy HtoD [sync] 973126 ms 50.752... n/a n/a n/a n/a n/a 234375KB 44 GB/s 
Memcpy HtoD [sync] 9735609 ms 96.512... n/a n/a n/a a  46875KB 463 GB/s 
gen sgemmNN val(float co.. 973.71 ms 5.126 ms [4251] [164,1] 3 3 / 
n/a ve ve 


0 n n/a 
Memcpy DtoH [sync] 978837 ms 74.464 ... 3 312.5 KB 4 GB/s 


6.3 Visual Profiler 运行 cublasDemo 展开 GPU 运算 细节 


在 这 个 例子 中 ， 可 以 看 到 CUDA 函数 调用 的 实际 时 间 线 轴 。 可 以 看 到 ， 对 于 
FE MEARE ME ATT, a T AŽ gen sgemmNN val(. . .)， 如 图 6.4 所 示 。 


CE Analysis [Co] Details £3 h, 
Name Start Time Duration Grid Size Block Size Regs Static SMem i Size 
Memcpy HtoD [sync] 972.859 ms 5184 ys n/a n/a / n/a / 112 bytes 
Memcpy HtoD [sync] 973.126 ms 50.752 us n/a n/a n/a la 234.375 KB 
Memcpy HtoD [sync] 96 n/a / 468.75 KB 


gen sgemmNN val(float co... ` 5.126 ms [4251] [164.1] 1168 n/a 


Memcpy DtoH [sync] 978.837 ms 74464 ys / / / n/a / 312.5 KB 


© Console |" Settings SES Ach" P 








6.4 Visual Profiler 运行 cublasDemo 后 cublas 函数 细节 
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观察 Details 选项 栏 ， 可 以 看 到 每 个 CUDA 函数 调用 所 用 的 具体 时 间 ， 特 别 
地 ， 可 以 得 到 内 核 函 数 中 更 多 关于 线程 网 格 和 线程 块 大 小 的 详细 信息 。CUBLAS 
自动 设 定 了 线程 网 格 和 线程 块 的 大 小 。 此 例 中 ， 

线程 网 格 大 小 : [4, 25, 1] 

线程 块 大 小 : [16, 4, 1] 

由 此 我 们 可 以 知道 ，CUBLAS 为 大 小 为 200x400 WAG RAE ME C 共 分 配 了 6400 
(16x4x4x25) 个 线程 。 

综 上 所 述 ，c-mex 函数 包含 两 个 头 文 件 ( 见 图 6.5). ME MATLAB 中 编译 
mex 代码 时 ， 同 时 指出 了 所 调用 的 库 以 及 库 的 位 置 。 通 过 这 种 方式 ， 扩 展 c-mex 
"aZ mS CUBLAS 库 。 利 用 CUDA 运行 时 库 来 为 输入 和 输出 数据 分 配 和 释放 内 存 
"*|H], CUBLAS 函数 除了 执行 矩阵 和 和 窍 阵 乘法 的 核心 运算 外 ， 也 负责 数据 在 主机 


和 GPU 设备 之 间 转 移 。 


cublas_v2.h 
cublasDemo.cpp 
图 6.5. cublasDemo c-mex 生成 过 程 


























6.5 (UFFT 


CUFFT 是 NVIDIA 提供 的 具有 GPU 加 速 的 快速 全 里 时 变换 (FFT) 函数 库 。 
与 CUBLAS —ff, CUFFT 隐藏 了 CUDA 的 细节 ， 所 以 可 以 使 用 简单 的 界面 来 利 
FA NVIDIA GPU 的 计算 能 力 。 该 函数 库 支 持 兼 容 FFTWS 的 数据 布局 ， 所 以 可 以 无 
颖 整合 现 有 的 FFTW 代码 。 

和 CUBLAS 一 样 ，CUFFT 也 需要 C 头 文件 和 库 ， 这 些 文件 位 于 CUBLAS 头 
文件 和 库 文 件 所 在 目录 。 

编译 所 需 的 头 文件 : 











SFFTW (The Faster Fouriev Transform in the west) 是 一 个 快速 计算 FFT 的 标准 C 语言 
程序 集 。 
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GUTTL.h 

cuda runtime.h 

链接 所 需 的 库 : 

cufft.lib, cudart.lib Windows 
libcufft.dylib, libcudart.dylib MacOS X 
|Iibcufft.so, I13bcudart.so Linux 


64 位 Windows 操作 系统 : 


C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v5.0\1ib\x64\cufft.1ib 
C:\Program Fiels\NVIDIA GPU Computing Toolkit\CUDA\v5.0\include\cufft.h 


32 位 Windows 操作 系统 : 


C:\Program Files\NVIDIA GPU Computing Toolkit NCUDANVv5.0 NT ibNWin32Ncufft.lib 
C:\Program Files\NVIDIA GPU ComputingToolki tNCUDANVv5.0ONincludeNcufft.h 


Mac OS X 操作 系统 : 


/Developer/NVIDIA/CUDA-5.0/lib/libcufft.dylib 
/Developer/NVIDIA/CUDA-5.0/include/cufft.h 


32 位 Linux 操作 系统 : 


/usr/local/cuda-5.0/lib/libcufft.so 
/usr/local/cuda-5.0/include/cufft.h 


64 位 Linux 操作 系统 : 


/usr/local/cuda-5.0/11b64/libcufft.so 
/usr/local/cuda-5.0/include/cufft.h 


6.3.1 通过 CUFFT 进行 二 维 FFT 运算 


下面 再 次 用 一 个 简单 的 例子 来 介绍 在 c-mex 函数 中 怎样 调用 CUFFT 函数 库 。 本 例 
中 ， 将 随机 生成 一 个 二 维 实 算 阵 ， 进 行 二 维 FFT 运算 ， 并 将 其 复数 结果 返回 MAILAB。 





1. 步骤 1 
FIF MATLAB 命令 窗口 ， 创 建 一 个 新 文件 ， 将 其 保存 为 cufftDemo.cpp。 
2. ZR 


在 至 文件 cuftDemo.cpp Y, A A PV: 

#include "mes hi 

Void mexFunction(int nlhs, mxArray *plhsL], int nrhs, const mxArray 
*prhs[]) 


{ 
j 


Ej CUBLAS 例子 中 相同 ， 这 是 空子 例 行 程序 。 
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3. 步骤 3 
在 这 步 中 ， 检 查 输 入 数据 类 型 是 单 精 度 还 是 浮 点 型 : 


j'tinclude "mes hi 











void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray 
*prhs[]) 
{ 
if Corns. = 1) 
mexErrMsgTxt("Invaid number of input arguments"); 


if (ImxIsSingle(prhs[0]) && !ImxIsSingle(prhs[1])) 
mexErrMsgTxt("input data type must be single"); 


float* A = (float*)mxGetData(prhsL[0]); 


int numARows = mxGetM(prhsL0]) ; 
int numACols = mxGetN(prhs[0]); 


float *deviceA; 


cudaMalloc(&deviceA, sizeof(float) * numARows * numACols); 
cudaMemcpy(deviceA, A, numARows * numACols * sizeof(float), 
cudaMemcpyHostToDevice); 
} 


4. 步骤 4 
这 步 中 ， 我 们 在 设备 中 为 输入 矩阵 4 创建 存储 空间 ， 并 将 数据 复制 到 GPU 设备 中 : 


#include "mex.h" 

void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray 
*prhs[]) 

{ 


if (nrhs ! 2 1) 
mexErrMsgTxt("Invaid number of input arguments"); 


if (ImxIsSingle(prhs[0]) && !ImxIsSingle(prhs[1])) 
mexErrMsgTxt("input data type must be single"); 


float* A = (float*)mxGetData(prhs[0]); 


int numARows = mxGetM(prhsL[0]); 
int numACols = mxGetN(prhs[0]); 


float *deviceA; 
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cudaMalloc(&deviceA, sizeof(float) * numARows * numACols); 
cudaMemcpy(deviceA, A, numARows * numACols * sizeof(float), 
cudaMemcpyHostToDevice); 
} 
5. DRS 


现在 ， 在 GPU FEJET lal feft FFT 输出 的 复数 据 : 


Jinclude "mex.h" 


void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray 
*bprhs[]) 
{ 
if Carns Ee 1) 
mexErrMsgTxt("Invaid number of input arguments"); 


if CImxIsSingle(prhs[0]) && !mxIsSingle(prhs[1])) 
mexErrMsgTxt("input data type must be single"); 


float* A = (float*)mxGetData(prhsL[0]); 


int numARows = mxGetM(prhs[0]); 
int numACols = mxGetN(prhs[0]); 


float* deviceA; 


cudaMalloc(&deviceA, sizeof(float) * numARows * numACols); 
cudaMemcpy (deviceA, A, numARows * numACols * sizeof(float), 
cudaMemcpyHostToDevice); 


int outRows = numARows /2+ 1; 

int outCols = numACols; 

cufftComplex* deviceOut; 

cudaMalloc(&deviceOut, sizeof(cufftComplex) * outRows * outCols); 


} 

这 里 我 们 必须 要 格外 注意 ，MATLAB 数据 是 按 列 存储 ， 这 表示 同一 列 中 的 数 
据 在 内 存 空间 中 是 连续 存放 的 。 然 而 ，CUFFT 数据 是 按 行 存储 的 。CUFFT 希望 数 
据 是 按 行 连续 存储 ， 而 不 是 像 MATLAB 那样 按 列 存储 。 

K 6.5 是 CUFFT API 参考 中 给 出 的 输入 输出 数据 大 小 汇总 。 这 里 的 2D 和 
R2C 【实数 -复数 ) 分 别 是 我 们 关注 的 维度 和 类 型 。N, 是 按 列 变换 的 数据 ， 当 在 内 
行 空间 中 连续 移动 时 ，N; 快速 变化 。 所 以 在 MATLAB 数据 类 型 中 ，N1 是 行 维 
HE, No ÆJ, MATLAB 中 的 列 维度 和 行 维度 在 CUFFT 中 分 别 对 应 Ni 和 
N，。 如 果 我 们 不 注意 维度 和 数据 布局 ， 得 出 的 结果 将 发 生 转 置 。 
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d 6.5 输入 和 输出 数据 大 小 (来 自 CUFFT API 参考 ) 


NN Ns (2+1) euffiComplex 
€ MATLAB 中 的 行 维 度 M 对 应 CUFFT 中 的 No. 
€ MATLAB 中 的 列 维度 N 对 应 CUFFT 中 的 Ni。 
所 以 ， 输 出 的 行 数 是 实际 行 数 的 一 半 加 1。 看 一 下 函数 参考 中 给 出 的 函数 
cufftPlan2d(...) 的 定义 ， 这 个 函数 将 在 下 一 步 中 调用 。 
cufftResult cufftPlan2d(cufftHandle *plan, int nx, int ny, cufftType type) 是 根据 指 
定 的 信号 大 小 和 数据 类 型 创建 2D FFT 配置 。 例 如 ， 输 入 信息 如 下 : 











plan 指向 cufftHandle 对 象 的 指针 

nx x 维度 FFT 变换 的 大 小 〈 行 数 ) 

ny y 维度 FFT 变换 大 小 《〈 列 数 ) 

type FFT 变换 数据 类 型 (例如 ， 对 于 单 精度 数据 类 型 ，CUFFT_C2R 将 复数 变 为 实数 ) 


对 于 输入 参数 nx 和 ny， 我 们 分 别传 递 numACols 和 numARows 的 值 。 

6. DIR 6 

输入 和 输出 数据 矩阵 准备 就 绪 后 ， 调 用 CUFFT 函数 。 像 CUBLAS 例子 中 那 
样 ， 首 先 创建 它 的 句柄 : 

#include "mes hi 


j#include <cuda_runtime.h> 
dFinclude <cufft.h> 





void mexFunction(int nlhs, mxArray *plhs[], int nrhs, mxArray *prhs[ J) 
{ 
if (nrhs ! 2 1) 
mexErrMsgTxt("Invaid number of input arguments"); 


if (ImxIsSingle(prhs[0]) && !mxIsSingle(prhs[1])) 
mexErrMsgTxt("input data type must be single"); 
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float* A = (float*)mxGetData(prhs[0]1); 


int numARows = mxGetM(prhs[0]); 
int numACols = mxGetN(prhs[0]): 


float *deviceA; 


cudaMalloc(&deviceA, sizeof(float) * numARows * numACols); 
cudaMemcpy(deviceA, A, numARows * numACols * sizeof(float), 
cudaMemcpyHostToDevice); 


int outRows = numARows /2+ 1; 

int outCols = numACols; 

cufftComplex* deviceOut; 

cudaMalloc(&deviceOut, sizeof(cufftComplex) * outRows * outCols); 


cufftHandle plan; 
cufftPlan2d(&plan, numACols, numARow, CUFFT R2C); 
cufftExecR2C(plan, deviceA, deviceOut); 


cufftDestroy(plan); 
cudaFree(deviceA); 
} 


在 cufftPlan2d(...) F, Beye Y Sa A rm AZ) A Ae o BET fA NS — 
旦 制定 了 这 一 计划 ， 在 之 后 的 程序 中 如 采 需 要 的 话 可 以 再 次 利用 ， 不 需要 时 可 以 
调用 cufftDestroy(...) 函数 将 其 消除。 实际 的 计算 在 cufftExecR2C(...) 函 数 中 进行 ， 
在 输出 数组 deviceOut 中 可 得 到 输出 。 

7. DART 

在 GPU 内 存 中 可 以 得 到 FFT 计算 数据 。 将 这 些 计算 数据 返回 到 主机 存储 器 
中 ， 之 后 就 可 以 在 MATLAB 中 使 用 它 了 。 

#include "mex.h" 


#include <cuda_runtime.h> 
#include <cufft.h> 




















void mexFunction(intnlhs, mxArray *plhsL], int nrhs, mxArray *prhsL]. 


{ 
if (nrhs != 1) 
mexErrMsgTxt("Invaid number of input arguments"); 


if (ImxIsSingle(prhs[0]) && !mxIsSingle(prhs[1])) 
mexErrMsgTxt("input data type must be single"); 


float* A = (float*)mxGetData(prhs[0]); 


int numARows = mxGetM(prhs[0]); 
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int numACols = mxGetN(prhs[0]); 
float *deviceA; 


cudaMalloc(&deviceA, sizeof(float) * numARows * numACols); 
cudaMemcpy(deviceA, A, numARows * numACols * sizeof(float), 
cudaMemcpyHostToDevice); 


int outRows = numARows /2+ 1; 

int outCols = numACols; 

cufftComplex* deviceQut; 

cudaMalloc(&deviceOut, sizeof(cufftComplex) * outRows * outCols); 


cufftHandle plan; 
cufftPlan2d(&plan, numACols, numARows, CUFFT. R2C) ; 
cufftExecR2C(plan, deviceA, deviceOut); 


float* out = (float*)mxMalloc(sizeof(cufftComplex) * outRows * 
outCols); 
cudaMemcpy(out, deviceOut, outRows * outCols * sizeof(cufftComplex), 
cudaMemcpyDevi ceToHost); 


plhs[0] = mxCreateNumericMatrix(outRows, outCols, mxSINGLE CLASS, 
mxCOMPLEX) ; 
float* real = (float*)mxGetPr(plhs[0]); 
float* imag = (float*)mxGetPi(plhs[0]); 
float* complex — out; 
for (int c= 0; € «€ outboTs: tc) 
{ 
for (intr 20; r < outRows; ++r) 


{ 
*real++ = *complex++; 
*jmagt++ = *complex++; 
} 
} 
mxFree(out); 


cufftDestroy(plan); 
cudaFree(deviceA); 
] 


与 CUBLAS 不 同 ， 我 们 用 CUDA 函数 分 配 和 释放 内 存 ， 且 在 GPU 和 c-mex 
之 间 相 互 传送 数据 。 但 除了 这 三 个 CUDA 函数 外 ， 不 需要 定义 我 们 自己 的 内 核 函 
数 ， 也 不 需要 确定 线程 块 和 线程 的 大 小 。 正 如 第 4 章 中 讨论 的 那样 ，MATLAB 把 
复数 存放 在 两 个 独立 的 矩阵 中 ， 一 个 存储 实 部 ， 一 个 存储 虚 部 。CUFFT 将 复数 一 
个 一 个 存储 在 一 块 内 存 空 间 中 。 所 以 在 这 步 中 ， 我 们 要 为 MATLAB 创建 一 个 复数 
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算 阵 ， 并 把 实 部 和 虚 部 数据 复制 到 相应 的 矩阵 中 。 
8. DIRS 
现在 我 们 已 经 实现 了 c-mex 445. BEA MATLAB 命令 窗口 ， 然 后 编译 我 们 的 代码 : 
mex cufftDemo.cpp -lcudart -Icufft -L"C:\Program Files\NVIDIA GPU Computing 


Tool kit\CUDA\v5.0\1ib\x64" -v -I"C:\Program Files\NVIDIA GPU Computing 
Tool kit\CUDA\v5.0\include" 


PAME XUI P: 

€ -lcudart: 表明 在 调用 CUDA 运行 时 库 。 有 具体 而 言 ， 我 们 调用 了 两 个 基本 
CUDA rK Zi: cudaMalloc(...) 和 cudaFree(...)。 

e -lcufft: 表明 在 调用 CUFFT Æ. HAWS. RIH T cuf XXX 函数 调用 。 

e -Ldir: dir 是 CUDA 和 CUFFT 库 所 在 的 目录 。 

e -Idir: dir 是 CUDA 和 CUFFT 头 文件 所 在 的 目录 。 

9. ARO 

如 在 64 位 Windows 操作 系统 下 进行 编译 ， 前 面 c-mex 代码 编译 会 产生 c-mex X 

件 cublasDemo.mexw64。 在 MATLAB 命令 窗口 中 调用 我 们 的 函数 来 进行 以 下 乘法 : 


>> A=single(rand(4, 4)); 
>> B= TTt2(A) 














B = 
9.7001 0.5174—0.91001 1.6219 0.51744 0.91001 
—-0.67884 0.43721  0.7316-F0.55211 —0.1909— 1.08071 —1.343/--0.26641 
1.3043 —-)0.9322 0.52551 2.09. -D.9035392 —1D. 52391 


-D.,0/08—0,43/271 —1.3437—0.20041 —0.1909 1.08071  0./516—0,55211 
>> C =cufftDemo(A) 
c= 
9./001—0.00001 0.51/4—-0.9100i 1.6219-0.00001 0.5174+ 0.91001 
—0 6/88 + 0.43721. 0.731670.552171 —0.1909—1.08071 —1.3437/ +0.26641 
1.3043 + 0.0000i -0.9332 +0.6233i -2.0830 +0.0000i —0.9332—0.62331 
比较 两 个 结果 : 一 个 用 MATLAB fft2 函数 ， 另 一 个 用 CUFFT c-mex K 
数 。 注 意 到 cufftDemo(A) 返回 结果 比 MATLAB fft2 函数 少 一 行 ， 这 一 输出 结果 
依据 的 是 其 API 规范 《〈 见 表 6.5). 


FFT 类 型 输入 数据 大 小 输出 数据 大 小 
ROC Gil NNI]: 1) cuf Complo 


本 例 中 ，N1=4，N2=4， 这 样 最 终 输出 结果 为 三 行 。 
在 这 个 例子 中 ， 缺 少 的 这 行 可 以 用 第 二 行 的 复 共 箔 计算 得 到 ， 如 下 所 示 ; 





130 GPU 5 MATLAB 混合 编程 
>> Hrs (Ge cons Lf toud( Ee EE Tliplrtetes2,.2:4)) 5 


D = 
9.7001—0.00001 0.5174 一 0.9100i 1.6219—0.0000i 0.5174+0.9100i 
—0.6788+0.43721 0.73164+0.55211 -0.1909—1.0807i —1.34374+0.2664) 
1,3043-0,00001 =0.9332 0.62331 =2.0830 F0. 00007 «0,9332 —0,62531 
—0.5/88—0,.45/2] —1.543/—0,.26541 —0.1909--1.08071 0.7316 —0.55211 


6.3.20 JH Visual Profiler 进行 CUFFT 时 间 分 析 


采用 CUBLAS 的 例子 ， 采 用 NVIDIA Visual Profiler 对 cufft 函数 进行 更 深 的 认识 。 
打开 NVIDIA Visual Profiler， 创 建 一 个 新 的 对 话 。 在 MATLAB 窗口 中 ， 设 置 
编译 后 的 c-mex 文件 的 位 置 为 当前 路 径 ， 然 后 运行 c-mex 函数 ， 如 图 6.6 所 示 。 








File Edit Debug Parallel Desktop Window Help 
“OS X Ph 08 0 fC Bw SI Q Current Folder: c:\junk\MatiabMeetsCuda\Hello 


|]: Shortcuts Al Howto Add Al What's New 
Current Folder D Xi Command Window 


. « Hello -2 O9 >> A = single(rand(1000, 1000)): 
- >> B = cufftDemo (A); 
ame © 
"ELI d ud d A f >> 
«| cufftDemo.mexw64 
C p » V. T T F 
*| cublasDemo.mexwó4 
C) cublasDemo.cpp 


L cpp 
t) conv2MexOptB.obj 
L €onv2MexOptB.cu 
t2) conv2MexOptA.obj 
|. conv2MexOptA.cu 
4) conv2MexCuda.mexwó4 
€] conv2MexCuda.cpp 
t2) conv2Mex.obj 
4) conv2Mex mexw64 
Hl conv2Mex.h 3 
eom D Ae ess -— Command History 
A = single(rand(1000, 1000)); 
No details available B = cufftDemo(A); 


cufftDemo.cpp (C++ Source 


€ Start 





图 6.6 cufftDemo Æ MATLAB 中 的 运行 


运行 c-mex 函数 后 ， 关 闭 MATLAB 窗口 退出 MATLAB。MATLAB 关闭 后 ， 返 回 
NVIDIA Visual Profiler。 此 时 NVIDIA Visual Profiler 完成 了 对 MATLAB 信息 的 搜集 ， 
并 日 在 窗口 中 生成 了 分 析 结 果 。 如 果 NVIDIA Visual Profiler 弹出 如 图 6.7 所 示 窗 口 ， 则 
临时 在 c-mex 函数 未 尾 处 添加 cudaDeviceRest( ) 函数 ， 以 确保 刷新 CUDA 配置 文件 。 





Unable to read the entire session timeline. The displayed timeline may be empty or 

A incomplete because the application aborted or failed to flush profile data before 
exiting. The application should call cudaDeviceReset() before exiting to ensure that al |. 
profile data is flushed. 





4 


图 6.7 NVIDIA Visual Profiler 会 话 时 间 轴 不 完整 消息 
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mxFree(out); 
cufftDestroy(plan); 
cudaFree(deviceA); 
cudaFree(deviceB); 


cudaDeviceReset(); 
} 


ZC MATLAB 关闭 后 ， 让 我 们 看 看 CUFFT 执行 情况 的 分 析 细 节 ， 如 图 6.8 所 示 。 


Max 4.698 ms 

Avg: 2.285 ms 

Min: 14.656 vs 
ation 


Max 3822 MB 

Avg: 3.819 MB 

Min: 3815 MB 
Size 


Max 147 GB/s 
Avg: 132 GB/s 
Min: 1.17 GB/s 











Low Compute Utilization [ 14.849 ms / 199.008 ms = 7.5%] 
D 
The multiprocessors of one or more GPUs are mostly idle. 
Stages 4, Low Memcpy/Compute Overlap [0 ns / 5.712 ms = 09] 
^ b 
Lh Reset All uly, Analyze AN The percentage of time when memcpy is being performed in parallel with compute is low. 
g A Low Memcpy Throughput [ 1.31 GB/s avg. for memcpys accounting for 100% of all memcpy time ] 
The memory copies are not fully using the available host to device bandwidth. 





E 
Multiprocessor wo 
Kernel Memory wo 


fa X 





6.8 Visual Profiler 分 析 cufftDem 
在 cufft PACA ENF, It, GRAS ER GRIN Tal op TP RIA T e 
我 们 可 以 更 好 地 了 解 定 义 的 cufft 函数 的 内 部 情况 。 注 意 这 一 图 数 创建 了 多 个 不 同 
线程 大 小 的 内 核 函 数 ， 如 图 6.9 所 示 。 











Grid Se ` Block Sue Regs Static SMem Dynamic SMem Size Throughput 
D n/a n/a wa 3. 1.17 GB/s 
n/a n/a 


Ah 
[5001.1] 
197611] 

naa) 

(5001.1) 

(976,11) 

(1.1.1) 

190714] 
ry 


6.9 GPU 运算 中 Visual Profiler 的 cufftDemo 分 析 细 节 
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综 上 所 述 ， 如 CUBLAS 实例 所 示 ，c-mex 图 数 共 包含 两 个 头 文件 。 在 
MATLAB 中 用 mex 编译 代码 时 ， 我 们 指定 所 采用 的 函数 库 以 及 函数 库 的 位 置 。 所 
采用 的 cuda 运行 时 函数 用 来 分 配 和 释放 内 存 ， 以 及 在 主机 和 设备 间 传 递 输入 输出 数 
据 。 在 调用 cuff KUT, WWA MATLAB 的 数据 布局 是 否 与 CUFFT HR. 
CUFFT 要 求 按 行 输入 数据 ， 但 MATLAB 则 是 按 列 顺序 。 还 需要 格外 注意 的 是 ， 
MATLAB 中 的 行 和 列 是 如 何 映射 到 CUFFT 中 的 nx 和 ny 中 的 ， 如 图 6.10 所 示 。 


cufft Demo.cpp 

















cufft.lib 









cudart.lib 





cufftDemo.mex 


图 6.10  cufftDemo c-mex 创建 过 程 


0.4 Thrust 


Thrust 是 一 个 C++ 模板 库 ， 它 使 得 用 户 能 够 使 用 CUDA 实现 高 性 能 并 行 应 
FA. Thrust 提供 了 丰 刘 的 数据 并 行 基 元 ， 例 如 扫描 、 排 序 、 归 约 。 可 以 利用 这 些 在 
Thrust 中 实现 的 算法 来 写 出 更 简洁 、 更 具 可 该 性 的 程序 。 因 为 Thrust 是 模板 库 ， 
所 以 不 需要 链接 其 他 任何 库 ， 上 只 需要 把 它 的 头 文 件 包含 在 c-mex 函数 中 。 

如 果 使 用 CUDA 4.0 或 更 高 版 本 ，Thrust 应 该 已 经 安装 在 系统 中 了 。 需 要 被 包 
售 的 文件 位 于 头 文件 目录 。 

€ Windows 32 位 和 64 位 操作 系统 : 

C:\Program Fiels\NVIDIA GPU Computing Toolkit\CUDA\vS.0\include 

€ Mac OS X 操作 系统 : 

/Developer/N VIDIA/CUDA-5.0/include 

€ Linux 32 位 和 64 位 操作 系统 : 


/usr/local/cuda-5.0/include 























6.4.1 通过 Thrust 排序 


1. 步骤 1 


打开 MAILAB 命令 窗口 ， 创 建 一 个 狐 文 件 ， 并 保存 为 thrustDemo.cpp。 
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2. DIR 2 
在 thrust.cpp 空 文件 中 ， 输 入 以 下 代码 : 


4include "mex.h" 


Void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray 

*prhs[]) 

{ 

j 

这 是 一 个 空 的 子 例 行 程序 。 

3. 步骤 3 

在 本 步骤 中 ， 检 查 和 输入 数据 是 单 精度 还 是 序 点 型 ， 并 且 准 备 浮 点 型 的 输出 数 
据 。 然 后 调用 getSum(...)， 在 这 个 函数 中 调用 thrust 函数 。 下 面 例子 中 的 第 三 行 是 
告诉 编译 器 将 要 使 用 getSum(...) 函数 ， 这 个 函数 在 这 个 文件 之 外 已 经 完成 了 : 


4#Finclude "mex.h" 











extern float getSum(float* A, int size); 
void mexFunction(int nlhs, mxArray *plhsL], int nrhs, const mxArray 
*prhsL]) 
{ 
if (nrhs ! 2 1) 
mexErrMsgTxt("Invaid number of input arguments"); 


if (ImxIsSingle(prhs[0]) && !mxIsSingle(prhs[1])) 
mexErrMsgTxt("input data type must be single"); 


float* A = (float*)mxGetData(prhs[0]); 

int numARows = mxGetM(prhs[0]); 

int numACols = mxGetN(prhs[0]); 

int numElem = (numARows > numACols) ? numARows: numACols; 


plhs[0] =mxCreateNumericMatrix(1, 1, mxSINGLE CLASS, mxCOMPLEX) ; 
float* B = (float*)mxGetData(plhs[0]); 


*B = getSum(A, numElem) ; 
} 


4. 步骤 4 

现在 创建 thrustSum.cu 文件 ， 在 这 个 文件 中 所 有 的 thrust 函数 将 会 被 编译 。 采 
用 nvcc ONS Zei thrust TUS, nvec EIE BA CUDA 生成 二 进 制 文件 ， 
创建 thrustSum.cu 并 输入 以 下 代码 : 
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include <thrust/reduce.h> 
#include <thrust/device_vector.h> 


float getSum(float* A, int size) 
{ 
thrust::device_vector<float> deviceA(A, A+ size) 
return thrust::reduce(deviceA.begin(), 
deviceA.end(), 
(float)0.0f, 
thrusts:plus=Tloat=()): 
} 


5. 步骤 5 
编译 并 生成 目标 文件 thrustSum.obj，c-mex 主 函 数 会 链接 这 个 文件 : 





>> system('nvcc -c thrustSum.cu'); 

6. DIRO 

编 详 c-mex 主 函数 并 链接 thrustSum.obj: 

>> mex thrustDemo.cpp thrustSum.obj -lcudart -L"C:\Program Files\NVIDIA 

GPU Computing Toolkit\CUDA\v5.0\1lib\x64" -v -I"C:\Program Files\NVIDIA 

GPU Computing Tool kit\CUDA\v5.0\include" 

7. DRT 

现在 生成 了 在 MATLAB 中 可 以 调用 的 c-mex 函数 ， 在 MATLAB 命令 窗口 中 
可 以 运行 此 函数 : 

>> thrustDemo(single([1234])) 








ans — 
10 


>> thrustDemo(single(rand(1, 10000))) 


ans — 
4.9986e + 03 


6.4.2 HI Visual Profiler 分 析 Thrust 


c-mex AAOH Thrust 库 时 ， 可 以 同样 使 用 NVIDIA Visual Profiler AAA, Gel 
行 哪 种 内 核 函 数 以 及 程序 如 何 执行 。 像 在 CUBLAS 和 CUFFT 中 操作 的 那样 ， 用 
MATLAB 运行 NVIDIAVisual Profiler， 之 后 在 MAILAB 命令 窗口 中 输入 以 下 代码 运行 : 
>> thrustDemo(single(rand(1, 12345))) 











ans — 
6.1485e+ 03 


WR MATLAB 俘 止 运行 ， 且 NVIDIA Visual Profiler 显示 需要 cudaDeviceRest( ) PK 
数 的 错误 ， 可 以 把 这 个 函数 包含 在 cmex 函数 的 最 后 ， 如 下 所 示 : 
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*B = getSum(A, numElem); 


cudaDeviceReset(); 
} 


两 个 内 核 函 数 在 归 约 算法 中 被 定义 。 每 个 内 核 函 数 都 有 一 个 一 维 的 线程 网 格 
和 线程 块 大 小 ， 如 图 6.11 Pitas. 











78.07 ms 78.08 ms 7809 ms 


B Jg 





Profiling Overhead 





E Context 1 (CUDA) 


Y 100.0% (2) void thrus... void thr 


= Streams 





ni n/a 
vs BLU (320,11) 
vm nig Mii 12 

n/a n/a n/a 














图 6.11 Visual Profiler 分 析 thrustDemo 
Thrust 是 一 个 C++ 模板 库 ， 在 调用 它 时 《〈 见 图 6.12)， 需 要 进行 两 步 编 译 ， 首 
先 用 nvcc 编译 ， 然 后 再 用 mex 编译 。 创 建 thrustSum.cu 文件 ， 用 于 存储 所 有 
Thrust 相关 的 内 容 。 然 后 ， 用 nvec 编译 需 编 详 并 生成 目标 文件 。 首 先 必 须 声 明 包 
含 这 个 函数 或 其 他 感 兴趣 函数 的 头 文 件 。 然 后 ， 编 译 c-mex 主 函 数 并 用 目标 文件 
链接 ， 生 成 最 终 的 c-mex 文件 。 


thrust/device vector.h 









thrustDemo.mex 


图 6.12 thrustDemo c-mex 创建 过 程 
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本 章 将 介绍 一 种 简单 的 计算 机 图 形 学 算法 : Marching Cubes。 这 种 算法 尽管 简 
单 ， 但 却 非常 依赖 数据 集 的 数据 密集 运算 。 

本 章 中 ， 你 可 以 了 解 以 下 内 容 : 

€ Marching Cubes 算法 介绍 。 

@ 在 MATLAB 中 实现 此 算法 。 

@ 在 MATLAB 中 提升 速度 。 

e 利用 c-mex M CUDA 提升 速度 。 





7.2 Marching Cubes 算法 


Marching Cubes 是 一 种 简单 ， 但 功能 非常 强大 的 计算 机 图 形 学 算法 ， 而 且 应 用 广 
泛 ， 尤 其 是 三 维 可 视 化 中 。 该 算法 以 三 角形 的 形式 ， 从 给 定 的 一 组 图 中 提取 三 维 等 什 
面 ， 在 这 个 等 值 面 中 每 个 点 有 相同 的 党 数值 。 输 入 数据 的 来 源 众多 ， 比 如 CT 图 和 核 
位 共振 (MRD 扫 摘 图 。 输 入 数据 通 党 源 目 一 组 二 维 图 像 ， 如 图 7.1 所 示 。 在 体 数 据 
中 ， 每 个 数据 点 称 为 一 个 体 素 (voxel)。 图 7.2 中 8 个 体 素 构成 了 一 个 立方 体 。 
































X 





图 7.1 切片 形式 显示 的 采样 体 数 据 图 7.2 ” 体 数据 、 体 素 和 立方 体 网 格 
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如 果 有 MXNxP 个 体 数 据 ， 则 在 整个 数据 集中 会 有 CM-1)x(N-1)x(P-1) 个 立方 体 。 
每 个 立方 体 的 顶点 会 分 配 一 个 体 素 值 ， 每 个 顶点 值 可 能 高 于 或 低 于 等 值 面 的 值 。 这 
个 算法 的 基本 思想 就 是 找到 等 值 面 在 立方 体 边界 的 交点 ， 然 后 在 这 些 交 点 中 构造 三 
角形 。 考 虑 图 7.2 中 的 立方 体 ， 并 且 标 记 每 个 顶点 和 棱 。 如 图 7.3 中 那样 标记 8 个 项 
点 和 12 条 棱 。 因 为 立方 体 中 每 个 顶点 可 以 高 于 或 低 于 等 值 面 的 值 ， 所 以 共有 27-256 
种 可 能 的 情况 ， 由 于 有 对 称 的 情况 ， 所 以 只 有 15 种 不 同 的 情况 ， 如 图 7.4 所 示 。 






































了 了 


图 7.3 有 顶点 和 校 坐 标的 立方 体 图 7.4 15 种 不 同 的 情况 


为 简单 起 见 ， 假 设 顶点 V0 高 于 等 值 面值 ， 其 余 点 低 于 等 值 面值 ， 所 以 VO 是 

内 部 对 象 ， 如 图 7.5 所 示 ， 这 正 是 图 7.4 中 的 第 二 种 情况 。 这 种 情况 中 ， 等 值 面 穿 
过 三 条 械 : EO. ES 和 E3， 这 三 条 楼 的 交点 可 线性 插值 。 

V5 E5 














E10 


图 7.5 MA VO 大 于 等 值 面 的 值 ， 生 成 一 个 带 法 回 量 的 三 角形 
这 个 立方 体 的 等 值 面 类 似 于 三 角形 。 定 义 三 角形 的 法 癌 量 ， 使 其 指向 低 于 等 
值 面 的 一 侧 。 我 们 可 以 计算 出 所 有 其 他 的 255 种 情况 ， 并 确定 每 种 情况 下 的 三 角 
形 。 可 以 提前 将 这 些 值 计算 出 来 ， 然 后 用 已 经 做 好 的 得 找 表 得 找 每 一 种 情况 。 
这 种 算法 提供 了 两 种 主要 的 表格 : RRA BRA. FC, FE 8 IR 
表示 为 8 位 二 进 制 数 ， 确 定 立 方 体 数 : 
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0 如 果 Vi 处 的 值 小 于 等 值 面 的 值 
第 N 个 比特 = 








l 如 果 Vi 处 的 值 大 于 等 于 等 值 面 的 值 
V7 V6 V5 V4 V3 V2 V] V0 
0 0 0 0 0 0 0 ] 


通过 这 个 值 ， 来 看 一 下 校 表 格 ， 从 校 表格 中 可 得 到 值 为 205， 如 末 把 这 个 值 艳 换 成 
12 位 的 二 进 制 数 ， 每 位 代表 校 的 值 ， 如 来 等 值 耐 和 校 相交 ， 束 设 为 1。 在 本 例 中 : 
第 2 位 uf 第 10 位 BOM 第 8 位 第 7 位 第 6 位 第 5 位 第 4 位 第 3 位 第 2 位 第 1 位 
Ell El0 E9 E8 .E7 E6 B5 D B E2 EI EO 
0 0 0 | 0 0 0 0 1 0 0 | 


从 二 进 制 的 值 中 ， 可 以 知道 棱 E06、E3 和 E8 与 等 值 面 相交 ， 在 等 值 面 和 这 些 
楼 的 交点 处 可 以 线性 插值 。 比 如 在 棱 E3 的 交点 可 以 估 值 为 : 


p3- Sae LO C V3-V0) +V0 


其 中 ，I0 和 了 B 分 别 是 顶点 VO 和 V3 的 强度 值 。 

然后 ， 第 二 个 表格 按 顺序 给 出 了 一 个 三 角形 的 索引 ， 这 能 够 确定 法 向 量 的 方 
回 ( 或 者 哪个 面 朝 外 )。 对 于 本 范例 中 的 立方 体 ， 三 角形 表格 给 出 : 

O By 3. els lo us ed oly elo Sls els ele ely bs ely ud 























edgeTable - [ 
0, 265, 
2060, 2309, 
400, 153, 
2460, 2197, 
560, 825, 


triTable = [ 








图 7.6 棱 和 三 角形 查找 表 
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按照 表 中 的 顺序 ， 三 角形 是 由 点 E06、E8 和 E3 确定 的 。 在 表 7.6 中 可 以 很 容 
易 查 找 出 所 有 可 能 的 三 角形 及 对 应 的 索引 。 





1.3 MATLAB 实现 


本 节 介 绍 在 MATLAB 中 怎样 实现 Marching Cubes 算法 。 首 先 为 了 介绍 这 个 算 

法 ， 先 在 MATLAB 中 直接 运行 这 个 算法 。 在 运行 过 程 中 ， 访 问 每 个 体 素 并 确定 所 

有 的 三 角形 。 在 testSurfaceNoOpt.m 和 getSurfaceNoOptm， 或 在 步骤 的 最 后 ， 有 
完整 的 执行 过 程 。 











7.3.1 步骤 1 


首先 ， 用 MATLAB 命令 生成 一 个 小 的 体 数 据 样 本 flow. Æ MATLAB 命令 窗 
口中 ， 输 入 以 下 代码 : 


5 generate sample volume data 
LX, Y, Z, V] = flow; 


b visualize volume data 

figure 

xmin = min(X(:)) 

ymin em mr 

zmin —mintZCr») 

xmax = max(X(:)); 

ymax = max(Y(:)); 

zmax —maxtZts: 223 
hslice-surf(linspace(xmin,xmax,100), linspace(ymin,ymax,100), zeros 
(100)); 

rotate(hslice,[-1,0,0],-45) 

xd = get(hslice,'XData'); 

yd = get(hslice,'YData'); 

zd = get(hslice,'ZData'); 

delete(hslice) 

Hesltcetc C Y. ZZ V xdoyad.zds 
set(h,'FaceColor', 'interp', 'EdgeColor', 'none', 'DiffuseStrength', 0.8) 
hold on 

Dx s HEB iv s ie aL I 
set(hx,'FaceColor', 'interp', 'EdgeColor', 'none') 
(KEES ee gë T ZVL] ymax: LI): 
set(hy,'FaceColor', 'interp', 'EdgeColor', 'none') 
he =o) TEE Y. EK KE, cm ti s 
set(hz,'FaceColor', 'interp', 'EdgeColor', "none 


默认 情况 下 ， 会 生成 四 个 变量 : K Y, Z 和 V， 它 们 是 包含 体 素 位 置 和 强度 


140 GPU 45 MATLAB 混合 编程 


的 25x25x50 的 定 阵 。 其 余 代 码 会 进行 数据 的 可 视 化 。 如 果 现 在 执行 代 公 ， 会 生成 
如 图 7.7 所 示 的 体 数据 。 





图 7.7 体 数 据 样 本 


如 果 想 进一步 了 解 可 视 化 操作 ， 可 见 MATLAB > User's Guide > 3-D 
Visualization > Volume Visualization Techniques > Exploring Volumes with Slice Planes 
中 的 MATLAB 帮助 ， 就 可 以 知道 沿 着 X. Y. Z 方向 的 体 数 据 大 小 ， 并 定义 等 值 
面值 为 -3。 


7.3.2 UE 2 


定义 函数 来 执行 Marching — pen 并 保存 为 getSurfaceNoOpt.m. 
数 有 五 个 输入 和 两 个 输出 返回 值 ， 包 含 体 数据 中 三 角形 的 所 有 顶点 和 索引 。 
| 


function [Vertices, Indices] = getSurfaceNoOpt(X, Y, Z, V, isovalue) 





edgeTable = uint16([ 
0, 265, 515, 778, 1030, 1295, 1541, 1804, 
2060, 2309, 2575, 2822, 3082, 3331, 3593, 3840, 


1804, 1541, 1295, 1030, 778, 515, 265, Dik 
triTable = [ 
—1,-1, -1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1; 
0,8,3,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1; 


lig hg Sy Sh gy E a LUN WE a PELLE a 


sizeX = size(V, 1): 
sizeY = size(V, 2): 
sizeZ = size(V, 3): 
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MAX VERTICES = 15; 


5 vertices and indices 

VertexBin = single(zeros(sizeX, sizeY, sizeZ, MAX VERTICES, 3)); 
TriCounter = zeros(sizeX, sizeY, sizeZ); 

totalTriangles = 0; 


首先 为 Marching Cubes 算法 创建 两 个 预先 计算 的 查找 表 。 接 下 来 ， 硝 定 体 数 
据 治 系 了 上 和 2Z 方 癌 的 大 小 。 然 后 为 所 有 顶点 和 索引 存储 预 分 配 临 时 变量 。 











7.3.3 步骤 3 
在 这 一 步 中 ， 利 用 循环 娩 套 的 方式 访问 体 数据 中 的 所 有 立方 体 。 如 果 体 数据 
大 小 为 MxNxP， 则 共有 (M-1)x(N-1)x(P-1) 个 立方 体 。 


for k= LsiZeL = 1 
forj =1:sizeY - 1 
fori=1:sizex-1 


% algorithm goes in here 
end 
end 
end 


7.3.4 步骤 4 


在 最 内 层 的 循环 中 ， 读 取 正 在 处 理 的 立方 体 的 8 个 顶点 的 位 置 和 强度 值 。 如 
图 7.3 所 示 ， 根 据 顶 点 标号 进行 分 配 。 


% temp. vars for voxels and isopoints. 
voxels = single(zeros(8, 4)); %[v, x,y,z] 
isoPos = single(zeros(12, 3)); $[x,y,.z] 











为 CUbe 

voxels(1,:)=[V(i, J; EK XC, j, k), EE: j; k), 
£C qu Kk): 

voxels(2,:) -[V(i, j+1, k), X(i, j+1, k), TT, j+1, k), 
Z(i, j-1, k)]; 


voxels(3,:)=[V(it+l, j+1, ki, X(i+1, jtl, k), YCitl, jt+l, k), 
Zl, get, EXE 


voxels(4,:)-[V(i-*1, j, k}, Xx(i+1, j, k), Y(i+1, j, k), 
Z(i+1, Jj, KJ; 

voxels(5,:)=LV(i, b k+1), X(i, de k3 19, Y(i, j. k+1), 
SET, j, k+1)]; 

voxels(6,:)=LV(i, j+1, k+1), Xi, j+1, k+1), Y(i, j+1, k+4+1), 


GET: kb ko Kd Ts 
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voxels(7,:)=CVCit1, j+1, k+1), X(i+1, j+1, k+1), Y(i+1, jt+l, k+1), 
Z(i+1, j+1, k+1)]; 


voxels(8,:) 2[VCi +1, j, k+1), XG +1, j, k+1), YG+1, j, — k*1), 
Zi +1, j, k+1)]; 


7.3.5 US 


检 得 每 个 顶点 的 强度 值 是 否 大 于 或 者 小 于 等 值 血 值 。 如 末 这 个 值 大 于 等 值 面值 ， 
该 顶点 的 1 比特 位 置 值 将 设 定 为 1。 因 为 有 8 个 顶点， 所 以 总 共有 256 种 情况 。 检 训 





8 个 顶点 的 所 有 值 后 ， 确 定 立 方 体 索引 。 利 用 这 个 索引 ， 从 校 表格 中 获取 棱 数 值 。 


5 find the cube index 

cubeIndex = uint16(0); 

forno 1:8 
if voxels(n, 1) >= isovalue 

cubeIndex = bitset(cubelndex, n); 

end 

end 

cubeIndex = cubelIndex+ 1; 





5 get edges from edgeTable 
edges = edgeTable(cubeIndex); 
if edges == 

continue; 
end 


7.3.6 2R 6 


从 校 表格 中 获取 棱 值 之 后 ， 可 以 确定 等 值 面 与 校 相 交 的 位 置 ， 并 查找 这 些 校 的 交 
上 点。 首先， 创建 一 个 新 的 内 插 函 数 。 这 个 函数 以 体 素 值 和 等 值 面 值 作 为 输入 ， 以 内 插 
位 置 为 输出 。 


function Lvarargout] = interpolatePos(isovalue, voxell, voxel2) 
scale = (isovalue—voxell(:,1)) ./ (voxel2(:,1) - voxell(:,1)); 
interpolatedPos = voxell(:,2:4)+ [scale .* (voxel2(:,2) — voxell1(:,2)), ... 
scale .* (voxel2(:,3) — voxel1(:,3)), ... 
scale .* (voxel2(:,4) —voxell(:,4))]; 











if nargout ==1 || nargout == 
varargout{1}=interpolatedPos; 
elseif nargout == 
varargout{1} =interpolatedPos(:,1); 
varargout{2} =interpolatedPos(:,2); 
varargout{3} =interpolatedPos(:,3); 
end 


HIRES FRACTURE, ol", TEBE pe H VITRES: 
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5 check 12 edges 
if bitand(edges, 1) 

isoPos(1,:) = interpolatePos(isovalue, voxels(1,:), voxels(2,:)); 
end 
if bitand(edges, 2) 

isoPos(2,:) = interpolatePos(isovalue, voxels(2,:), voxels(3,:)); 
end 
if bitand(edges, 4) 

isoPos(3,:) = interpolatePos(isovalue, voxels(3,:), voxels(4,:)); 
end 
if bitand(edges, 8) 

isoPos(4,:) = interpolatePos(isovalue, voxels(4,:), voxels(1,:)); 
end 
if bitand(edges, 16) 

isoPos(5,:) = interpolatePos(isovalue, voxels(5,:), voxels(6,:)); 


end 
if bitand(edges, 32) 


: isoPos(6,:) = interpolatePos(isovalue, voxels(6,:), voxels(7,:)); 
en 


if bitand(edges, 64) 

isoPos(7,:) = interpolatePos(isovalue, voxels(7,:), voxels(8,:)); 
end 
if bitand(edges, 128) 

isoPos(8,:) = interpolatePos(isovalue, voxels(8,:), voxels(5,:)); 
end 
if bitand(edges, 256) 

isoPos(9,:) = interpolatePos(isovalue, voxels(1,:), voxels(5,:)); 
end 
if bitand(edges, 512) 

isoPos(10,:) = interpolatePos(isovalue, voxels(2,:), voxels(6,:)); 
end 
if bitand(edges, 1024) 

isoPos(11,:) = interpolatePos(isovalue, voxels(3,:), voxels(7,:)); 
end 
if bitand(edges, 2048) 

isoPos(12,:) = interpolatePos(isovalue, voxels(4,:), voxels(8,:)); 
end 


7.3.7 UT 


从 三 角形 表格 中 ， 可 以 知道 有 多 少 个 三 角形 及 它们 的 索引 。 仔 细 检 查 三 角形 

表格 中 预先 设 定 的 顶点 顺序 ， 并 记录 所 有 确定 的 三 角形 ， 最 多 有 5 个 三 角形 。 
Zwalk through the triTable and get the triangle(s) vertices 
numTriangles = 0; 


numVertices = 0; 
for n 123216 
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if triTable(cubeIndex, n) <0 
break; 
end 


5 first vertex 

numVertices =numVertices+ 1; 

edgeIndex = triTable(cubeIndex, n) - 1; 

vertexBin(i, j, k, numVertices, :) = isoPos(edgeIndex, :); 
5 Second vertex 

numVertices = numVertices+1; 

edgeIndex = trilable(cubeIndex, n+1)+1; 

vertexBin(i, j, k, numVertices, :) = isoPos(edgeIndex, :); 
5 third vertex 

numVertices = numVertices+ 1; 

edgeIndex = triTable(cubeIndex, n+ 2) * 1; 

vertexBin(i, j, k, numVertices, :) = isoPos(edgeIndex, :); 


numTriangles = numTriangles+ 1; 
end 
TriCounter(i, j, k) = numIriangles; 
totalTriangels = totalTriangles+ numTriangles; 


7.3.8 es 
FETT VSP SUBE SATB a FEES ET RARS LEA HE fH: 


Vertices = single(zeros(totalTriangles * 3, 3)); 
Indices = uint32(zeros(totalTriangels, 3)); 
vldx = 0; 
tIdx 20; 
fork =1:sizeZ - 1 
for j] =1:sizeyY - 1 
for i=1:sizex -1 





count = TriCounter(i, j, k); 
if count « 1 

continue; 
end 


fort = 0:count - 1 
vidx=vIdx+ 1; 
Vertices(vIdx, :) = vertexBin(i, j, k, 3*t - 1, :); 
vidx = vldx+ 1; 
Vertices(vIdx, :) = vertexBin(i, j, k, 3*t - 2, :); 
vIdx = vĪdx+ 1; 
Vertices(vIdx, :) =vertexBin(i, j, k, 3*t+3,:); 


tIdx = tIdx+1; 
Indices(tIdx, :) =uint32([3 * tIdx-2, 3* tIdx- 1, 3 * tIdx]); 
end 
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end 
end 
end 


7.3.9 PIR 9 


计算 所 有 的 顶点 和 三 角形 索引 后 ， 可 以 如 下 方式 进行 三 角形 可 视 化 。 回 到 
testSurfaceNoOptm， 添 加 以 下 儿 行 实现 三 角形 可 视 化 : 


% data type to single 
X=single(X); 
Y2single(Y); 
Zesingle(Z); 
V=single(V); 
isovalue 2 single(-3); 














% Marching cubes 
[Verticesl, Indices1] = getSurfaceNoOpt(X, Y, Z, V, isovalue); 


5 visualize triangles 

figure 

p = patch('Faces', Indicesl, 'Vertices', Vertices1); 
set(p, 'FaceColor', 'none', 'EdgeColor', 'red'); 
daspect([1,1,1]) 

view(3); 

camlight 

lighting gouraud 

grid on 


利用 Marching Cubes 找到 的 三 角形 如 图 7.8 PTR. 








图 7.8 ”未 优化 旦 等 值 面值 =-3 时 的 等 值 面 
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下 面 是 在 MATLAB 中 完整 的 实现 过 程 ， 包 括 两 个 得 找 表 。 注 意 ， 在 最 后 的 结 





条 中 有 重复 的 项 点 。 


HD RASTA H KI, 我 们 可 以 到 这 结束 ， 不 进 一 


可 以 继续 删除 这 些 重 复 顶 点 ， 减 小 最 终 存 储 的 大 小 。 然 而 








步 减 少 重复 点 。 


这 是 三 个 文件 完整 的 代码 ， 所 示 表 格 值 是 截 短 的 。 全 部 表格 值 可 以 在 提供 的 


getSurfaceNoOpt.m 文件 中 找到 。 


getSurfaceNoOpt.m 
function [Vertices, 


edgeTable = uintl6([ 
0, 265, 515, 778, 
2060, 2309, 2575, 2822, 
400, 153, 915, 666, 
2460, 2197, 2975, 2710, 
D60, 825, 5l. 314, 
3728, 3993, 3219, 3482 
1692, 1941, 1183, 1430 
3840, 3593, 3331, 3082 
1804, 1541, 1295, 1030 
triTable = L 
—1,-1,-1,-1,-1,-1 
0,8,3,-1,-1,-1 
0,1,9,-1,-1,-1,- 
1, 8, 3, 9, 8, 1, -—1, 
1, 3, 8, 9, 1, 8, -1, 
0,9, 1,-1,-1,-1,- 
0, 3, 8, -1,-1,-1 
—1,-1,-1,-1,-1,-1,- 
sizeX 2 size(V, 1); 
sizeY = size(V, 2); 
SizeZ = size(V, 3); 


MAX_VERTICES = 15; 


% vertices and indices 


1030, 
3082, 
1430, 


3482, 


E530, 


1295, 
3991, 
11985, 
3219. 
1855, 


Indices] = getSurfaceNoOpt(X, Y, Z, V, 


isovalue) 


1541, 1804, ... 
3593, 3040, ... 
1941, 1692, .. 


3993; 
1077, 


OU EB uu. 
1940, i 


VertexBin = single(zeros(sizeX, sizeY, sizeZ, MAX VERTICES, 3)); 
[riCounter = zeros(sizeX, sizeY, sizeZ); 


totalTriangles = 0; 
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5 marching through the cubes 


fork=1 
for j 


:SizeZ- 1 


= :sizeY- 1 


fori=l:sizex-1 


voxels(2 


voxels(3, 


voxels(4 


voxels(5, 


voxels(6, 


voxels(7 


voxels(8 


% temp. vars for voxels and isopoints. 
voxels = Single(zeros(8, 4)); Lv, x, y, ZJ 
isoPos = single(zeros(12, 3)); Z[x, y, zl 


b cube 
voxels(1,:)2[V(i, j, XD, XQ, j, ki. vii, j; ki, 
„:)=[V(i,j+1,k), XCi, j+1,k), Y(i, j+1,k), 
Z(i, j+1,k)]; 
:)=[V(i+1,j+1,k), X(i+1,j+1,k), Y(i+1,j+1,kā), 
Z(i+1,j+1,k)]; 
„:)=[V(i+1,j, k), X(i+1,j, k), Y(i+1,j, k), 
Z(i+1,j, k)]; 
:)=[V(i, j, k+1),X(i, j, k+1),Y(i, j, k+1), 
Z(i, j, k+1)]; 
:)2[V(di, j+1,k+1),X(i, j+1,k+1),Y(i, j+1, 
k+1),Z(i, j+1,k+1)]: 
„:)=[V(i+1,j+1,k+1),X(i+1,j+1,k+1),Y(iî+1, 
j+1,k+1),Z(i+1,j+1,k+1)]; 
AASL Tt, KEL) AO +155, KFIR 15), 
k+1),Z(i+1,j, k+1)]; 


% find the cube index 
cubeIndex = uint16(0); 


torn 


:8 


if voxels(n, 1) >= isovalue 
cubeIndex = bitset(cubeIndex, n); 


end 
end 


cubeIndex = cubeIndex+ 1; 


5 get edges from edgeTable 
edges = edgeTable(cubeIndex); 


if edges 


continue; 


end 


5 check 12 edges 
if bitand(edges, 1) 
isoPos(1,:) = interpolatePos(isovalue, voxels(1,:), 


end 


voxels(2,:)); 


if bitand(edges, 2) 
isoPos(2,:) = interpolatePos(isovalue, voxels(2,:), 


voxels(3,:)); 
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end 
if bitand(edges, 4) 
isoPos(3,:) = interpolatePos(isovalue, voxels(3,:), 
voxels(4,:)); 
end 
if bitand(edges, 8) 
isoPos(4,:) = interpolatePos(isovalue, voxels(4,:), 
voxels(1,:)); 
end 
if bitand(edges, 16) 
isoPos(5,:) = interpolatePos(isovalue, voxels(5,:), 
voxels(6,:)); 
end 
if bitand(edges, 32) 
isoPos(6,:) = interpolatePos(isovalue, voxels(6,:), 
voxels(7,:)); 
end 
if bitand(edges, 64) 
isoPos(7,:) = interpolatePos(isovalue, voxels(7,:), 
voxels(8,:)); 
end 
if bitand(edges, 128) 
isoPos(8,:) = interpolatePos(isovalue, voxels(8,:), 
voxels(5,:)); 
end 
if bitand(edges, 256) 
isoPos(9,:) = interpolatePos(isovalue, voxels(1,:), 
voxels(5,:)); 
end 
if bitand(edges, 512) 
isoPos(10,:) = interpolatePos(isovalue, voxels(2,:), 
voxels(6,:)); 
end 
if bitand(edges, 1024) 
isoPos(11,:) = interpolatePos(isovalue, voxels(3,:), 
voxels(7,:)); 
end 
if bitand(edges, 2048) 
isoPos(12,:) = interpolatePos(isovalue, voxels(4,:), 
voxels(8,:)); 
end 


walk through the triTable and get the triangle(s) vertices 
numTriangles = 0; 

numVertices = 0; 

forn=1:3:16 
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if triTable(cubeIndex, n) « 0 
break; 
end 


5 first vertex 

numVertices = numVertices+ 1; 

edgeIndex = trilable(cubelndex, n) - 1; 

vertexBin(i, j, k, numVertices, :) = isoPos(edgeIndex, :); 
5 Second vertex 

numVertices = numVertices-c 1; 

edgeIndex = trilable(cubeIndex, n+ 1)+ 1; 

vertexBin(i, j, k, numVertices, :) = isoPos(edgeIndex, :); 
5 third vertex 

numVertices = numVertices-c 1; 

edgeIndex = triTable(cubeIndex, n+ 2)+ 1; 

vertexBin(i, j, k, numVertices, :) = isoPos(edgeIndex, :); 


numIriangles = numTriangles+ 1; 
end 
TriCounter(i, j, k) = numIriangles; 
totalTriangels = totalTriangles + numTriangles; 
end 
end 
end 


Vertices = single(zeros(totalTriangles * 3, 3)); 
Indices = uint32(zeros(totalTriangels, 3)); 
vidx = 0; 
tIdx 20; 
fork 1:sizeZ- 1 
for j=1:sizeY - 1 
fori =1:sizex - 1 


count = TriCounter(i, j, k); 
+r counta l 

continue; 
end 


fort = 0:count - 1 
vldx = vidx+ 1; 
Vertices(vIdx, :) = vertexBin(i, j, k, 3*t+1,:); 
vidx = vldx+ 1; 
Vertices(vIdx, :) = vertexBin(i, j, k, 3*t - 2, :); 
vidx = vIdx^4 1; 


Vertices(vIdx, :) = vertexBin(i, j, k, 3*t - 3, :); 
tIdx = tIdx+1; 


Indices(tIdx, :) = uint32([3* tIdx - 2, 3* tIdx - 1, 3* tildx]); 
end 
end 
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end 
end 


InterpolatePos.m 
function [varargout] = interpolatePos(isovalue, voxell, voxel2) 
scale = (isovalue - voxell(:,1)) ./ (voxel2(:,1) - voxell(:,1)); 
interpolatedPos = voxell(:,2:4) t [scale .* (voxel2(:,2) —voxell(:,2)),... 
scale .* (voxel2(:,3) - voxel1(:,3)), ... 
scale .* (voxel2(:,4) - voxell(:,4))]; 


if nargout = = 1|| nargout = = 
varargout{1} = interpolatedPos; 
elseif nargout = = 3 


varargout{1} = interpolatedPos(:,1); 
varargout{2} = interpolatedPos(:,2); 
varargout{3} = interpolatedPos(:,3); 

end 

testSurfaceNoOpt.m 

5 generate sample volume data 

[X, Y, Z, V] = flow; 


5 visualize volume data 

figure 

xmin = min(X(:)2); 

ymin = min(Y(:)2); 

zmin = min(Z(:)); 

xmax — max(X(:)); 

ymax = max(Y(:)); 

zmax = max(Z(:)); 

hslice = surf(linspace(xmin,xmax,100), linspace(ymin,ymax,100), zeros(100)); 
rotate(hslice,[-1,0,0],-45) 

xd = get(hslice,'XData'); 

yd = get(hslice, 'YData'); 

zd = get(hslice, 'ZData'); 

delete(hslice) 

h-slice(X,Y,Z,V,xd,yd,za); 
set(h,'FaceColor', 'interp', 'EdgeColor', 'none', 'DiffuseStrength', 0.8) 
hold on 

hx =slice(X,Y,Z,V,xmax,[].0]); 
set(hx,'FaceColor', 'interp', 'EdgeColor', 'none') 
hy 2slice(X,Y,Z,V, TI. ymax, E): 
set(hy,'FaceColor', 'interp', 'EdgeColor', 'none') 
hz-slice(X,Y,Z,V, L1, El, zmin); 
set(hz,'FaceColor', 'interp', 'EdgeColor', 'none') 


% data type to single 
X2single(X); 
Y=single(Y); 
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Z=single(Z); 
V=single(V); 
isovalue = single(-3); 


5 Marching cubes 
[Verticesl, 


5 visualize triangles 


Indicesl] = getSurfaceNoOpt(X, Y, Z, V, 


figure 
p-patch('Faces', Indices1, 'Vertices' 
set(p, 'FaceColor', 'none', 'EdgeColor', 
daspect([1,1,1]) 
view(3); 
camlight 
lighting gouraud 
grid on 
7.3.10 ”时 间 分 析 


现在 ， 可 以 利用 MATLAB 的 Profiler 分 析 执 行 
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isovalue); 


, Vertices1); 


'red'); 


情况 。 按 (Ctbe5) 键 或 者 从 


MATLAB 主 亲 单 中 选择 Windows > Profiler 打开 Profiler 窗口 。 然 后 ， 输 入 MATLAB 


一 一 广 ， 


A STFA BITE, 


File Edit Debug Desktop Window Help 
ZA 54 


` Start Profiling Run this code: testSurfaceNoOpt 


得 到 如 图 7.9 所 示 的 分 析 


pa ot 


JON ZH o 


~ @ Profile time: 2 sec 





Function Name 
axescheck 7 
camlight 1 
camlight»righthanded 1 
1 


set(rootobi,'ShowHiddenHandles' Temp) 
(rootobj Si liddenHandles'Temp) 
all» showHiddenHandlesToFindAllHandles 


2 
1 
4 
3 
1 
8 
2 
3 
3 
3 
3 
5 
1 
1 
6 


N I^] [2] 


0.019 s 
0.007 s 
0s 
0.005 s 
0s 
0.007 s 
0.003 s 
0.041 s 
0.001 s 
0.001 s 
0s 
0.002 s 
0s 
0s 
0s 
0.002 s 
0.020 s 
1.946 s 
0s 
0.013 s 
0s 
0s 
0s 


Calls Total Time Self Time" 


0.004 s 
0.002 s 
0.000 s 
0.005 s 
0.000 s 
0.007 s 
0.003 s 
0.000 s 
0.001 s 
0.001 s 
0.000 s 
0.000 s 
0.000 s 
0.000 s 
0.000 s 
0.000 s 
0.007 s 
1.640 s 
0.000 s 
0.001 s 
0.000 s 
0.000 s 
0.000 s 





Total Time Plot 
(dark band = self time) 


图 7.9 ”未 优化 的 MATLAB 代码 时 间 分 析 
总 的 来 说 ， 共 需要 大 约 1.9s。 点 击 Profiler 窗口 中 的 getSurfaceNoOpt 链接 ， 
ALG EI alsa, WE 7.10 所 示 。 
根据 分 析 结 果 ， 代 码 在 分 配 空 体 素 和 和 查找 立方 体 索 引 中 耗费 了 大 多 数 时 间 。 
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File Edit Debug Desktop Window Help 
EEN, 
: Start Profiling Run this code: testSurfaceNoOpt ~ Q Profile time: 2 sec 


Refresh e 


V] Show parent functions d Show busy lines [V] Show child functions 





4| Show Code Analyzer results [V] Show file coverage [V] Show function listing 
Parents (calling functions) 
Function Name Function Type Calls 
testSurfaceNoOpt | script 1 
Lines where the most time was spent 
Line Number Code Calls Total Time % Time Time Plot 
cubeIndex = bitset(cubeIndex, ... 127908 0.170s 87% m 


Vertices(vIdx, :) = vertexBin(... 6020 0.119 s 6.196 


Vertices(vIdx, :) = vertexBin(... 6020 0.114 s 


a 
Vertices(vIdx, :) = vertexBin(... 6020 0.118 s 6.196 H 
D 
H 


voxels(1,:) = [(V(i, j, Kk), ... 28224 (0069s 
All other lines 1.356 s .7% EE 
Totals 1.946 s 
Children (called functions) 
Function Name Function Type Calls Total Time % Time Time Plot 
interpolatePos function 12068 0.306s 157% am 
Self time (built-ins, overhead, etc.) 1.640 s 98439. M 
Totals 1.946 s 10096 





E] 7.10 ”时 间 分 析 细 市 


7.4 采用 CUDA n emex 实现 算法 


BRAT Marching Cubes 算法 ， 大 约 需 要 1.9s 的 时 间 。 本 市 将 展示 如 何 只 利 
用 MATLAB 代 公 实现 性 能 改善 。 采 用 第 1 章 介 绍 的 问 量化 和 预 分 配 的 概念 。 我 们 
的 策略 不 是 访问 每 个 体 素 ， 而 是 预先 分 配 临 时 内 存 来 存储 中 间 结 果 ， 并 在 不 引入 
三 重 伦 套 循 环 的 情况 下 计算 三 角形 。 











7.4.1 步骤 1 


创建 一 个 新 的 函数 getSurfaceWithOpt ， 输 入 如 下 代码 ， 并 将 其 保存 为 
getSurfaceWithOpt.m: 
getSurfaceWithOpt.m. 


getSurfaceWithOpt.m 
function [Vertices, Indices] = getSurfaceWithOpt(X, Y, Z, V, isovalue) 


edgeTable = uint16([ 
0, 265, 515, 778, 1030, 1295, 1541, 1804, ... 
2060, 2309, 2575, 2822, 3082, 3331, 3593, 3840, .. 


1804, 1541, 1295, 1030,778,515,265,0]); 
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triTable = [ 
—1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1; 
0,8,3,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1; 


e =e —1, Sg le =e R= —L 1.89]. a a Li 


sx=size(V, 1); 
syeoize(V.2): 
szespzetwv, 3): 


5 Cube Index 

CV = uintl6(V > isovalue); 

Cubes = zeros(sx-1, sy-1, sz-1, 'uint16'); 
Cubes = Cubes + CV(1:sx-1, 1:sy-1, 1:sz-1); 
Cubes = Cubes + CV(1:sx-1, 2:sy, 1:sz-1) * 2; 
Cubes = Cubes + CV(2:sx, 2:sy, 1:sz-1) * 4; 
Cubes = Cubes + CV(2:sx, 1:sy-1, 1:sz-1) * 8; 
Cubes = Cubes + CV(1:sx-1, 1:sy-1, 2:s2) * 16; 
Cubes = Cubes + CV(1:sx-1, 2:sy, 2:s82) * 32; 
Cubes = Cubes + CV(2:sx, 2:sy, 2:s2) * 64; 
Cubes = Cubes + CV(2:sx, 1:sy-1, 2:s2) * 128; 
Cubes = Cubes + 1; 


5 Edges 

Edges = edgeTable(Cubes); 
Edgeldx = find(Edges > 0); 
EdgeVal = Edges(Edgeldx); 


5 Vertices with edges 

[vdx, vdy, vdz] = ind2sub(size(Edges), Edgeldx); 
idx = sub2ind(size(X), vdx, vdy, vdz); 

Vtl = [V(idx), XCidx), YCidx), Z(idx)]; 
idx = sub2ind(size(X), vdx, vdy +1, vdz); 
Vt2 = [V(idx), XCidx), YCidx), Z(idx)]; 
idx = sub2ind(size(X), vdx+1, vdy+1, vdz); 
Vt3 = LVC idx), XCidx), YCidx), Z(idx)]; 
idx = sub2ind(size(X), vdx+1, vdy, vdz); 
Vt4 = [VCidx), XO00, YOndx), ZGdx) 1: 
idx = sub2ind(size(X), vdx, vdy, vdz* 1); 
Vt5 = [VCidx), XCidx), YCidx), ZCidx)]; 


idx = sub2ind(size(X), vdx, vdy+1, vdz+1); 
Vt6 = [VC idx), XCidx), YCidx), Z(idx)]; 

idx = sub2ind(size(X), vdx+1, vdy+1, vdz * 1); 
Vt7 = [VC idx), XCidx), YCidx), Z(idx)]; 

idx = sub2ind(size(X), vdx+1, vdy, vdz+1); 
Vt8 = [VCidx), XCidx), YCidx), ZCidx)]; 
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5 EdgeNumber 

PosX 2 zeros(size(EdgeVal,1), 12, 'single'); 

PosY = zeros(size(EdgeVal,1), 12, 'single'); 

PosZ = zeros(size(EdgeVal,1), 12, 'single'); 

idx = find(uintl6(bitand(EdgeVal, 1))); 

[PosX(idx,1), PosY(idx,1), PosZ(idx,1)] = interpolatePos(isovalue, 
(dži) VEZCTIX $293 

idx = find(uintl6(bitand(EdgeVal, 2))); 

[PosX(idx,2), PosY(idx,2), PosZ(idx,2)] = interpolatePos(isovalue, 
[10X, 39, VESCTOX, 2225 

idx = find(uintl6(bitand(EdgeVal, 4))); 

[PosX(idx,3), PosY(idx,3), PosZ(idx,3)] = interpolatePos(isovalue, 
(10X,22, VEMSCTOIX 229) 

idx = find(uintl6(bitand(EdgeVal, 8))); 

[PosX(idx,4), PosY(idx,4), PosZ(idx,4)] = interpolatePos(isovalue, 
(idx). VETLCTOX, 2095 

idx = find(uintl6(bitand(EdgeVal, 16))); 

[PosX(idx,5), PosY(idx,5), PosZ(idx,5)] = interpolatePos(isovalue, 
(ideile V£6C10X,:2)4 

idx = find(uintl6(bitand(EdgeVal, 32))); 

[PosX(idx,6), PosY(idx,6), PosZ(idx,6)] = interpolatePos(isovalue, 
idx] VEZCTIX; 2295 

idx = find(uintl6(bitand(EdgeVal, 64))); 

[PosX(idx,7), PosY(idx,7), PosZ(idx,7)] = interpolatePos(isovalue, 
(10x, 1), VEBCHIX, 2295 

idx = find(uintl6(bitand(EdgeVal, 128))); 

[PosX(idx,8), PosY(idx,8), PosZ(idx,8)] = interpolatePos(isovalue, 
KI Eh, VEDCTIX 2294 

idx = find(uintl6(bitand(EdgeVal, 256))); 

[PosX(idx,9), PosY(idx,9), PosZ(idx,9)] = interpolatePos(isovalue, 
(10x29); VE5CTQX $)9: 

idx = find(uintl6(bitand(EdgeVal, 512))); 


Vtl 


Vt2 


Vt3 


Vt4 


EE 


Vt6 


Vt/ 


Vt8 


Vtl 


[PosX(idx,10), PosY(idx,10), PosZ(idx,10)] = interpolatePos(isovalue, 


Vt2(idx,:), Vt6Cidx,:)): 
idx = find(uintl16(bitand(EdgeVal, 1024))); 


[PosX(idx,11), PosY(idx,11), PosZ(idx,11)] = interpolatePos(isovalue, 


VEOCTUXS 22, VEPCEIX, 2295 
idx = find(uintl6(bitand(EdgeVal, 2048))); 


[PosX(idx,12), PosY(idx,12), PosZ(idx,12)] = interpolatePos(isovalue, 


Vt4Cidx,:), Vt8Cidx,:)): 


% Triangles 
Vertices = zeros(0, 3, 'single'); 
TriVal =triTable(Cubes(Edgeldx),:)+1; 


Tori = Less 
idx = find(TriVal(:,i)>0); 
if isempty(idx) 
continue; 


"hd 计算 机 图 形 学 实例 155 


end 
TriVtx = TriVal(idx, i:i 9-2); 
vxl = PosX(sub2ind(size(PosX), idx, TriVtx(:,1))); 
vyl = PosY(sub2ind(size(PosY), idx, TriVtx(:,1))); 
vzl = PosZ(sub2ind(size(PosZ), idx, TriVtx(:,1))); 
vx2 = PosX(sub2ind(size(PosX), idx, TriVtx(:,2))); 
vy2 = PosY(sub2ind(size(PosY), idx, TriVtx(:,2))); 
vz2 = PosZ(sub2ind(size(PosZ), idx, TriVtx(:,2))); 
vx3 = PosX(sub2ind(size(PosX), idx, TriVtx(:,3))); 
vy3 = PosY(sub2ind(size(PosY), idx, TriVtx(:,3))); 
vz3 = PosZ(sub2ind(size(PosZ), idx, TriVtx(:,3))); 
vsz = 3* size(vxl, 1): 
tl = zeros(vsz, 3, 'single'); 
t1(1:3:vsz,:) =Lvxl vyl vz1]; 
t1(2:3:vsz,:) = [vx2 vy2 vz2]; 
tL1(3:3:V82,:) = [vx3 Vy3 vz3]; 
Vertices = [Vertices; tl]; 

end 


Indices = reshape(1:size(Vertices,1),3, size(Vertices,1)/3)'; 


(Exe urn, BOATING, TARTU SE rr ELE, ixi 
以 存放 更 多 临时 变量 为 代价 的 。 随 看 体 数 据 的 增加 ， 这 个 方法 可 能 变 得 不 可 行 。 无 论 
如 何 ， 如 果 执 行 这 段 代 码 ， 我 们 会 惊讶 于 它 所 能 市 省 的 时 间 。 


7.4.2 UE 


修改 testSurfaceNoOpt.m 文件 如 下 ， 并 保存 为 testSurfaceWithOpt.m: 


testSurfaceWithOpt.m 

% generate sample volume data 
LX, Y, Z, V] = flow; 
X=single(X); 

Y = single(Y); 
Z=single(Z): 
V=single(V); 

isovalue = single(-3); 














[Vertices2, Indices2] = getSurfaceWithOpt(X, Y, Z, V, isovalue); 


5 visualize triangles 

figure 

p = patch('Faces', Indices2, 'Vertices' , Vertices2); 
set(p, 'FaceColor', 'none', 'EdgeColor', 'green'); 
daspect([1,1,1]) 

view(3); 

camlight 

lighting gouraud 

gridon 
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运行 这 个 脚本 后 ， 会 得 到 相同 的 输出 数据 ， 仅 三 角形 以 不 同 的 顺序 存储 。 但 
是 ， 基 本 上 会 得 到 和 之 前 一 样 的 三 角形 ， 如 图 7.11 所 示 。 





优化 后 等 值 面 值 为 -3 时 的 等 值 面 





7.4.3 时 间 分 析 


现在 ， 进 行 狐 的 优化 后 代码 的 时 间 分 析 。 回 到 Profiler 并 运行 testSurface With 
Opt.m， 如 图 7.12 所 示 。 


File Edit Debug Desktop Window Help 
kel AER. 
Start Profiling Run this code: testSurfaceWithOpt ~ @ Profile time: 0 sec 





Calls TotalTime SelfTime* Total Time Plot 
(dark band = self time) 


0.007s 0002s E 
Os 0.000 s 
0.005 s 0.005 s 
Os 0.000 s 
0.005 s 0.005 s 
0.001 s 0.001 s 
0.001 s 0.000 s 
0.021 s 0.009 s 
0029s — 0020s 
0.001 s 0.001 s 
0.003 s 0.003 s 
0.002 s 0.002 s 
0s 0.000 s 
0s 0.000 s 
0.003 s 
0s 0.000 s 
0.003 s 
0.004 s 
0.007 s 
0.051 s 
0.002 s 
0.002 s 
0.000 s 





图 7.12 ”优化 后 的 MATLAB 代码 时 间 分 析 


此 时 ， 与 没有 优化 时 的 1.9 s HEE, ITZE getSurfaceWithOpt 只 用 了 0.029 s。 与 
直接 实现 相 比 ， 有 了 很 大 的 改善 。 通 过 去 除 三 重 骨 套 循环 ， 可 以 节省 大 部 分 时 间 。 
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1.5 FA c-mex 函数 和 GPU 实现 


即使 在 没有 引入 GPU 和 c-mex KAAI P, 27.4 六 那样 ， 利 用 癌 量化 和 
MOWER TP RAS, they DEERE TS BI ERY Se. ANE RR 
利用 c-mex 函数 和 GPU HEARS KEE E Git, TEC uus 
的 代码 ， 用 CUDA 函数 代 蔡 所 有 内 层 循环 操作 。 








7.5.1 步骤 1 


创建 c-mex 函数 的 子 例 行 程序 ， 并 以 如 下 代码 填充 主 函 数 主体 部 分 。 保 存 为 
getSurfaceCuda.cpp: 





getSurfaceCuda.cpp 
#include "mex.h" 

#include <vector> 
#include <cuda_runtime.h> 
#include "MarchingCubes.h" 


// [Vertices, Indices] = getSurface(X, Y, Z, V, isovalue) 
void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray *prhs[ ]) 
{ 
if (nrhs ! 3 5) 
mexErrMsgTxt("Invaid number of input arguments"); 


if (nihs ! 2 2) 
mexErrMsgTxt("Invalid number of outputs"); 

if (I!ImxIsSingle(prhs[0]) && !mxIsSingle(prhsL[1]) && 
ImxIsSingle(prhs[2]) && !ImxIsSingle(prhs[3]) && 
ImxIsSingle(prhs[4])) 
mexErrMsgTxt("input vector data type must be single"); 


const mwSize* size = mxGetDimensions(prhs[3]); 
int sizeX = size[0]; 
int sizeY = size[1]; 
int sizeZ = size[2]; 


float* X = (float*mxGetData(prhs[0]); 
float*Y = (float*mxGetData(prhs[1]); 
float*Z = (float*mxGetData(prhs[2]):; 
float*V = (float*mxGetData(prhs[3]); 
float isovalue = *float*mxGetData(prhs[4])); 


float*vertices[3]; 
unsigned int*indices[3]; 
int numVertices = 0; 

int numTriangles 20; 


158 GPU 5 MATLAB 混合 编程 


marchingCubes(isovalue, 
D PEOR 
sizeX, sizeY, sizeZ, 
vertices, indices, 
numVertices, numTriangles); 
cudaError t error = cudaGetLastError(); 
if (error ! = cudaSuccess) 
{ 
mexPrintf("%s\n", cudaGetErrorString(error)); 
mexErrMsgTxt( "CUDA failed\n"); 
j 


mexPrintf("numVertices = 4d\n", numVertices); 
mexPrintf("numTriangles = 2dMn", numTriangles); 


plhsL0] 2 mxCreateNumericMatrix(numVertices, 3, mxSINGLE CLASS, mxREAL) ; 
plhs[1] 2 mxCreateNumericMatrix(numTriangles, 3, mxUINT32 CLASS, mxREAL) ; 
float*Vertices = (float*mxGetData(plhs[0]); 
unsigned int*Indices = (unsigned int*mxGetData(plhs[1]); 


for (int i20;i «3;-c-i) 
d 
memcpy(Vertices+ i *numVertices, vertices[i], numVertices 
*sizeof(float)); 
free(vertices[i]); 
j 
for (int 120; 1 €«3;-t-1) 
{ 
memcpy(Indices+ i *numTriangles, indicesLi], numTriangles 
*sizeof(unsigned int)); 
free(indices[i]); 


} 


通常 ， 我 们 首先 检测 输入 数据 类 型 。 调 用 函数 marchingCubes(...)， 并 把 结 
复制 到 MATLAB 数组 中 。 


7.5.2 2P% 2 


KÆ marchingCubes(...) 在 头 文 件 MarchingCubes.h 中 声明 。 创 建 并 保存 头 文 
fors 

MarchingCubes.h 

1H fndef | MARCHINGCUBES H ` 

fidef ine —MARCHINGCUBES H - 





+#include <vector> 


extern void marchingCubes(float isovalue, 
float*X, float*Y, float*Z, float*V, 
int sizeX, int sizeY, int sizeZ, 
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float*vertices[], 
unsigned int*indices[], 
int& numVertices, int& numIriangles); 


#endif // | MARCHINGCUBES H ` 


7.5.3 pu 3 





现在 ， 利 用 CUDA 内 核 和 运行 时 库 实现 MarchingCubes.cu 中 的 marchingCubes(...) 
函数 ， 也 只 给 出 部 分 表 值 ， 完 整 表 值 见 MarchingCubes.cu: 


MarchingCubes.cu 
#include "MarchingCubes.h" 








. constant unsigned int edgeTable[256] = 
{ 


0, 265, 515, 778, 1030, 1295, 1541, 1804, 
2000, 2309. 2575, 2622, 3002, 3331, 3595, 3640; 


1804, 1541, 1295, 1030,778,515,265,0 
); 


| constant  inttriTable[256][16] = 

{ 
ll, D. 91. el. 9l. 91, 9l, 91. =), 9L. 1. =2e 1.91.1. bj. 
(0,8,3, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1}, 


Loeb. “be el. eh. th wl, cw. at, eh, el, ed. ale =1, -1, 3); 41) 
ks 


. device float3 interpolatePos(float isovalue, float4 voxell, float4 voxel2) 
{ 

float scale = (isovalue - voxell.w) / (voxel2.w - voxell.w); 

float3 pos; 

pos.x = voxell.x+ scale *(voxel2.x - voxell.x); 

pos.y = voxell.y+ scale *(voxel2.y - voxell.y); 

pos.z = voxell.z- scale *(voxel2.z - voxell.z); 

return pos; 
} 


#define MAX VERTICES 15 

. global void getTriangles(float isovalue, 
float*X, float*Y, float*Z, float*V, 
int sizeX, int sizeY, int sizeZ, 
float3*vertexBin, int*triCounter) 
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int i = blockIdx.x *blockDim.x+ threadIdx.x; 
// compute capability >= 2.x 

//int j = blockIdx.y *blockDim.y+ threadIdx.y; 
//int k= blockIdx.z *blockDim.z+ threadIdx.z; 


// compute capability < 2.x 

int gy = (sizeY+ blockDim.y - 1) / blockDim.y; 

int j = (blockIdx.y 2 gy) *blockDim.y+ threadIdx.y; 
int k 2 (blockIdx.y / gy) *blockDim.z * threadIdx.z; 


if(i»-2sizeX-1||j»^2 sizeY- 1| k^ sizeZ = 1) 
return; 


float4 voxels[8]; 
float3 isoPos[12]; 


int idx[8]; 

idx[0] = sizeX *(sizeY *k+ j)+7; 

idx[1] = sizeX *(sizeY *k+ j- 1) i; 

idxL[2] = sizeX *(sizeY *k-j-1)- i 1; 
idx[3] = sizeX *(sizeY *k+j)+i+1; 

idx[4] = sizeX *(sizeY *(k-1)- jo) i; 
idx[5] = sizeX *(sizeY *(k+1)+j+1)+7; 
idx[6] = sizeX *(sizeY *(k+1)+j+1)+i1+13; 
idx[7] = sizeX *(sizeY *(k+1)+j)+i1+1; 


/ / cube 

for(int n=0; n8; E+N) 

{ 
voxels[n].w = V[idx[n]]; 
voxels[n].x = XLidx[n]]J; 
voxels[n].y = Y[idx[n]]; 
voxels[n].z = ZL[idx[n]]; 

j 


// find the cube index 

uhsigned int cubeIndex = 0; 

for (intn=0;n<8;++n) 

{ 
if (voxels[n].w >= isovalue) 
cubeIndex |= (1«« n); 

} 


// get edges from edgeTable 
unsigned int edges = edgeTable[cubeIndex]; 
if (edges = = 0) 

return; 


// check 12 edges 
if (edges & 1) 
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isoPos[0] = interpolatePos(isovalue, voxels[0], 
if (edges & 2) 

isoPos[1] = interpolatePos(isovalue, voxels[1], 
if (edges & 4) 

isoPos[2] = interpolatePos(isovalue, voxels[2], 
if (edges & 8) 

isoPos[3] = interpolatePos(isovalue, voxels[3], 
if (edges & 16) 

isoPos[4] = interpolatePos(isovalue, voxels[4], 
if (edges & 32) 

isoPos[5] = interpolatePos(isovalue, voxels[5], 
if (edges & 64) 

isoPos[6] = interpolatePos(isovalue, voxels[6], 
if (edges & 128) 

isoPos[7] = interpolatePos(isovalue, voxels[7], 
if (edges & 256) 

isoPos[8] = interpolatePos(isovalue, voxels[0], 
if (edges & 512) 

isoPos[9] 2 interpolatePos(isovalue, voxels[1], 
if (edges & 1024) 

isoPos[10] = interpolatePos(isovalue, voxels[?2], 
if (edges & 2048) 

isoPos[11] = interpolatePos(isovalue, voxels[3], 
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voxels[1]); 


voxels[2]); 


voxels[3]): 


voxels[0]); 


voxels[5]); 


voxels[6]); 


voxels[7]); 


voxels[4]); 


voxels[4]); 


voxels[5]); 


voxels[6]); 


voxels[71]); 


// walkthrough the triTable and get the triangle(s) vertices 


float3 vertices[15]; 
int numTriangles = 0; 
int numVertices = 0; 


for (intn=0;n<15;n+ = 3) 
{ 
int edgeNumger = triTable[cubeIndex][n]; 
if (edgeNumger < 0) 
break; 
verticesLnumVertices++] = isoPos[edgeNumger ]; 


vertices[numVertices++] = isoPos[triTable[cubeIndex][n- 111; 
vertices[numVertices++] = isoPos[triTableLcubeIndex][n+2]];: 


++numTriangles; 
} 


triCounter[idx[0]] = numTriangles; 
for (intn=0; n<numVertices; ++n) 


vertexBin[MAX VERTICES *idx[0]+ n] = vertices[n]; 


j 


void marchingCubes(float isovalue, 
float*X, float*Y, float*Z, float*V, 
int sizeX, int sizeY, int sizeZ, 
float*vertices[], 
unsigned int*indices[], 
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int& numVertices, int& numTriangles) 


float*devX 20; 
float*devY 20; 
float*devZ2 0; 
float*devV = 0; 
float3*devVertexBin = 0; 
int*devIriCounter = 0; 


int totalSize = sizeX *sizeY *sizeZ; 


cudaMalloc(&devX, sizeof(float) *totalSize); 
cudaMalloc(&devY, sizeof(float) *totalSize); 
cudaMalloc(&devZ, sizeof(float) *totalSize); 
cudaMalloc(&devV, sizeof(float) *totalSize); 


cudaMemcpy(devX, X, sizeof(float) *totalSize, 
cudaMemcpy (devY, Y, sizeof(float) *totalSize, 
cudaMemcpy(devZ, Z, sizeof(float) *totalSize, 
cudaMemcpy (devV, V, sizeof(float) *totalSize, 


cudaMemcpyHostToDevice) ; 
cudaMemcpyHostToDevice); 
cudaMemcpyHostToDevice); 
cudaMemcpyHostToDevice); 


cudaMalloc(&devVertexBin, sizeof(float3) * totalSize *MAX VERTICES); 
cudaMemset(devVertexBin, 0, sizeof(float3) *totalSize *MAX VERTICES); 
cudaMalloc(&devTriCounter, sizeof(int) *totalSize); 
cudaMemset(devTriCounter, 0, sizeof(int) *totalSize); 


dim3 blockSize(4, 4, 4); 


// compute capability >= 2.x 


//dim3 gridSize((sizex+ blockSize.x - 1) / blockSize.x, 
/ f (sizeY+ blockSize.y - 1) / blockSize.y, 
ai (sizeZ+ blockSize.z - 1) / blockSize.z); 


// compute capabiltiy <2.x 


int gy = (sizeY + blockSize.y - 1) / blockSize.y; 
int gz = (sizeZ+ blockSize.z - 1) / blockSize.z; 
dim3 gridSize((sizex+ blockSize.x - 1) / blockSize.x, 


gy *gz, 
T); 


getIriangles << «gridSize, blockSize>> >(isovalue, 


devX, devY, devZ, devV, 
sizeX, sizeY, sizeZ, 
devVertexBin, 
devTriCounter); 


float3*vertexBin=(float3*malloc(sizeof(float3) *totalSize 


*MAX VERTICES); 


cudaMemcpy(vertexBin, devVertexBin, sizeof(float3) *totalSize 
*MAX VERTICES, cudaMemcpyDevi ceToHost); 

int*triCounter = (int*malloc(sizeof(int) *totalSize); 

cudaMemcpy(triCounter, devTriCounter, sizeof(int) *totalSize, 


cudaMemcpyDeviceToHost) ; 
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numTriangles = 0; 
for (int i =0; 1 < totalSize; ++i) 
numTriangles + = triCounter[ i]; 
numVertices = 3 *numTriangles; 


for (inti =0;1<3;++i) 
{ 
vertices[i] = (float*malloc(sizeof(float) *numVertices); 
indices[i] = (unsigned int*malloc(sizeof(unsigned int) *numTriangles); 
} 
int tIdx =0, vidx 30; 
for (int i20;i«totalSize; ++i) 
{ 
int triCount = triCounterliJ; 
if (CtriCount «€ 1) 
continue; 


int binIdx = i *MAX VERTICES; 
for (int c20;c«triCount; ++c) 


| for (intv =0;v<3;++Vv) 


{ 
vertices[0O0][vIdx] = vertexBinL[binIdx].x; 
vertices[l1][viIdx] = vertexBinLbinIdx].y; 
vertices[2][vIdx] = vertexBin[binIdx].z; 
indices[v][tIdx] =3 *tIldx+v+1; 
++vidx; 
++binIidx; 

} 

T--UIdX; 


} 


cudaFree(devX); 

cudaFree(devY); 

cudaFree(devZ); 

cudaFree(devV); 

cudaFree(devVertexBin); 

cudaFree(devTriCounter); 
j 


这 一 算法 的 基本 架构 与 及 用 MATLAB DICH DT AH. Géi 
循环 ， 而 是 给 每 个 体 素 分 配 一 个 线程 。 在 marchingCubes(...) 函数 中 ， 首 先 利用 
CUDA 函数 给 所 有 输入 输出 数据 分 配 GPU 设备 存储 器 。 然 后 ， 将 所 有 的 输入 数据 
从 主机 复制 到 GPU 设备 中 。 分 配 一 个 三 维 大 小 为 4x4x4 的 线程 块 。 每 个 线程 块 提 
供 64 个 线程 。 一 旦 定义 好 块 的 大 小 ， 束 可 以 利用 块 的 大 小 定义 线程 网 格 的 大 小 。 根 
据 GPU 的 计算 能 力 ， 网 格 线程 的 大 小 可 以 是 三 维 或 者 二 维 的 。 在 本 范例 中 ， 假 定 
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计算 能 力 小 于 2.x。 然 后 ，CUDA 内 核 中 使 用 的 线程 网 格 大 小 和 线程 块 大 小 ， 用 于 
决定 感 兴趣 体 素 的 位 置 。 
在 marchingCubes(...) 函数 中 ， 线 程 网 格 的 y 和 z 大 小 以 如 下 方式 组 合 : 


// compute capability >= 2.x 

//dim3 gridSize((sizex+ blockSize.x - 1) / blockSize.x, 
// (sizeY + blockSize.y - 1) / blockSize.y, 
// (sizeZ+ blockSize.z- 1) / blockSize.z); 


// compute capabiltiy < 2.x 

int gy = (sizeY + blockSize.y - 1) / blockSize.y; 

int gz = (sizeZ+ blockSize.z - 1) / blockSize.z; 

dim3 gridSize((sizex+ blockSize.x- 1) / blockSize.x, 
gy *gz, 
CH 


然后 ， 在 getTriangles kernel(...) 中 ，y 和 z 线程 网 格 大 小 可 以 如 下 方式 恢复 : 


int i = blockIdx.x *blockDim.x+ threadIdx.x; 





// compute capability >= 2.x 
//int j = blockIdx.y *blockDim.y+ threadIdx.y; 
//int k = blockIdx.z *blockDim.z+ threadIdx.z; 


// compute capability < 2.x 

int gy = (sizeY+ blockDim.y - 1) / blockDim.y; 

int j = (blockIdx.y Z gy) *blockDim.y+ threadIdx.y; 
int k = (blockIdx.y / gy) *blockDim.z+ threadIdx.z; 


"HAISCHEN De 5 XE VE ZR IRL EL, RREI MATLAB 方法 相同 。 


7.54 +698 4 
代码 准备 好 后 ， 编 详 生成 如 下 c-mex X TF: 


buildSurfaceCuda.m 

system('nvcc -c MarchingCubes.cu -Xptxas -v'); 

mex getSurfaceCuda.cpp MarchingCubes.obj -lcudart -L"C:\Program Files 
\NVIDIA GPU Computing Toolkit\CUDA\v5.0\1lib\x64" -I"C:\Program Files 
\NVIDIA GPU Computing Toolkit\CUDA\v5.0\include" —v 


在 nvec "P, Zelt -Xptxas 选项 。 这 个 选项 可 以 打印 出 附加 信息 ， 这 些 附 加 信息 
有 利于 判定 内 核 消 耗 了 多 少 存储 占 。 当 有 来 日 CUDA 的 关于 存储 需 资 源 的 错误 信息 
时 ， 这 个 操作 就 会 变 得 得 心 应 手 。 下 面 是 -Xptxas 的 打印 输出 样 例 : 

ptxas : info: 0 bytes gmem, 17408 bytes cmem[ 0] 

ptxas : info : Compiling entry function '_Zl2getTrianglesfPfS_S_S_ 

iiiP6float3Pi' for "em 10' 


ptxas : info : Used 38 registers, 88 bytes smem, 68 bytes cmem[ 1], 324 bytes 
|mem 
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运行 MATLAB 代码 后 ， 将 得 到 cmex 文件 ， 这 个 文件 可 以 在 MATLAB 命令 窗口 
中 调用 o 


7.5.5 NUS 
现在 ， 修 改 并 运行 测试 代码 如 下 : 


A generate sample volume data 

[X, Y, Z, V] = flow; 

X = single(X); 

Y=single(Y); 

Z=single(Z); 

V=single(V); 

isovalue2 single(-3); 
LVertices3, Indices3] = getSurfaceCuda(X, Y, Z, V, isovalue); 


b visualize triangles 

figure 

p = patch('Faces', Indices3, 'Vertices', Vertices3); 
set(p, 'FaceColor', 'none', 'EdgeColor', 'blue'); 
daspect([1,1,1]) 

view(3); 

camlight 

lighting gouraud 

grid on 


利用 GPU 计算 ， 生 成 新 的 三 角形 图 像 ， 如 图 7.13 Ata. 


e ee ara AN 
Ku 


SA 





图 7.13 利用 c-mex 和 GPU， 等 值 面值 =-3 时 的 等 值 面 
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7.5.6 ”时 间 分 析 


进行 时 间 分 析 ， 看 看 利用 GPU 性 能 改善 了 多 少 。 在 Profile 中 运行 
testSurfaceCuda.m, WA 7.14 所 示 。 


File Edit Debug Desktop Window Help 
+3 2^4 
: Start Profiling Run this code: testSurfaceCuda v @ Profile time: 0 sec | 


Function Name Calls Total Time Self Time* Total Time Plot 
(dark band = self time) 





camlight 0.006 s 0.001 s j 


0.001 s 


| 
0.003 s i 
| 


1 

1 

1 

2 0.001 s 
1 0.009 s 
1 0.000 s 
findobj 2 0.000 s 
flow 1 0.009 s 
getSurfaceCuda (MEX-file) 1 
graphics WprivateMindobjhelper 2 
grid 1 
initprintexporttemplate 1 
lighting 1 
lighting»our set 2 
meshgrid 1 
sph2cart 1 
testSurfaceCuda 1 
view 1 
view>ViewC ore 1 
view>isAxesHandle 1 





图 7.14 利用 GPU 的 c-mex 时 间 分 析 
现在 利用 GPU, 0.016s 内 可 以 完成 getSurfaceCuda(...) 中 所 有 的 三 角形 的 计 
算 ， 这 一 速度 大 约 是 第 二 种 实现 方法 的 两 倍 。 











1.0 ”总结 


本 章 探索 了 Marching Cubes 算法 的 三 种 实现 方法 。 

第 一 种 是 直接 实现 ， 不 进行 任何 优化 。 

第 二 种 实现 方法 ， 利 用 回 量 化 和 预 分 配 的 概念 提高 了 速度 。 在 这 一 实现 方法 
中 ， 去 反 了 三 重 肉 套 循 玉 ， 速 度 提 升 相当 可 观 。 但 是 ， 当 体 素 增加 时 ， 要 注意 可 
能 会 过 到 存储 器 资源 不 足 的 问题 。 

第 三 种 方法 ， 先 将 GPU 引入 到 第 一 种 实现 方法 中 。 利 用 CUDA ARK ERT 
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有 内 层 循 环 操 作 ， 分 配 GPU 的 线程 来 计算 每 一 个 体 素 的 三 角形 。 然 后 把 所 有 的 输 
出 数据 复制 回 MATLAB 数组 中 。 
总 体 来 说 ， 每 一 种 优化 技术 都 可 以 获得 速度 的 提升 ， 如 下 表 所 述 : 








方法 时 [a]/s 
getSurfaceNoOpt 1.9 
getSurfaceWithOpt 0.029 


getSurfaceCuda 0.016 


A 8% CUDA 转换 实例 : 3D 图 像 处 理 


81 kee 








三 维 GD) 医学 图 像 处 理 包含 海量 数据 ， 属 于 密集 计算 领域 的 一 种 。 通 过 3D 
医学 图 像 处 理 实例 ， 我 们 可 以 体验 从 MATLAB 到 CUDA 的 变换 流程 ， 而 且 在 性 
能 方面 感受 到 实际 处 理 速度 的 大 幅 提 升 。 本 章 将 讨论 以 下 问题 : 

€ c-mex 代码 的 CUDA 转换 实例 。 

e 耗 时 结果 分 析 与 CUDA 转换 设计 。 

e 大 文件 的 实际 CUDA 转换 。 





8.2 基于 Mlas 分 割 方法 的 MATLAB 代码 


8.2.1 基于 Atlas 分 割 背 景 知 识 











在 各 种 医疗 图 像 临床 和 研究 中 ， 从 患者 的 3D 图 像 数 据 中 精确 地 圈定 目标 解 训 
是 大 有 荔 处 的 。 在 大 规模 患者 研究 中 ， 采 用 人 工 方 式 处 理 如 此 大 量 的 数据 极为 耗 
时 和 乏味 ， 而 且 受 限于 不 同 观察 者 之 间 的 差异 ， 因 此 对 目标 堪 官 图 像 进行 可 靠 的 
HA UAE BE. M 3D 医疗 网 像 中 进行 句 官 图 像 目 动 分 割 是 当前 医疗 图 像 处 























基于 Atlas 的 分 割 方法 广泛 应 用 于 医疗 网 像 分 析 。 基 于 Atlas 分 割 方法 采 
用 图 像 配 准 技术 传播 Atlas 图 像 的 分 割 。 一 个 Atlas 数据 集 由 两 个 网 像 组 成 : 
患者 强度 网 像 和 对 应 的 二 进 制 分 割 模板 ， 二 进 制 分 割 模 板 由 手工 产生 ， 如 图 
8.1 rz, 

图 82 给 出 了 单一 基于 Atlas 分 割 方法 的 概念 。 当 拿 到 一 个 需要 进行 分 割 的 图 
像 数 据 时 ， 将 Atlas 强度 图 像 与 狐 的 目标 图 像 进 行 配 准 。 通 过 图 像 配 准 ， 能 够 获得 
从 Atlas 强度 图 像 到 新 的 目标 图 像 映 射 的 TT 变换。 通过 对 Atlas 分 割 模板 进行 工 变 
换 ， 为 狐 的 目标 图 像 产 生 一 个 狐 的 分 割 模 极 。 
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图 8.1 Atlas 42: 患者 MRI A&R (ZED XINBSA ESSE Chi, ESRA A) 





Atlas 需 分 割 的 新 图 像 





图 像 配 准 
产生 变换 T 





采用 T 
em e zum El no ncs Em Fe sui > 
产生 新 的 分 割 模板 


图 8.2 单一 基于 atlas 分 割 背 后 的 原理 


基于 atlas 的 分 割 方法 具有 很 多 优点 ， 即 使 目标 对 象 具 有 非常 模糊 和 复杂 的 
边界 ， 访 方法 仍 可 以 得 到 分 割 结 果 。 基 于 atlas 的 分 割 方法 不足 之 处 在 于 ， 由 于 














分 割 过 程 中 需要 采用 3D 图 像 配 准 ， 因 此 需要 较 大 的 计算 能 力 。 由 于 3D 图 像 配 
准 是 一 个 计算 开销 很 大 的 迭代 处 理 ， 因 此 当 使 用 原始 大 小 的 医疗 图 像 时 ， 运 行 
非常 缓慢 。 


822 MFH MATLAB 代码 


让 我 们 从 纯 m 代码 开始 进行 基于 atlas 的 海马 体 分 制 。 在 m code Only 示例 文 
件 夹 ， 主 模块 atlasSeg Mam m 首先 载 入 数据 文件 medical3D data mat, iz X fF 91 
括 一 个 atlas 42 CatlasVol, atlasSegVoD 和 目标 图 像 CtargetVol). Al 8.3 和 图 8.4 给 
出 了 atlasVol 数据 和 targetVol 数据 的 全 部 强度 图 像 。 可 以 通过 改变 
atlasSeg Main.m 第 6 行 中 viewBx、viewBy 和 viewBz 的 值 调整 显示 平面 。 
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BI Atlas Image 
File Edit View Insert Tools Desktop Window Help 


USMS) RAIDIR- 308a 


X-50 Plane Z-70 Plane 


Y=60 Plane 








K|8.3 X-50. Y=60 和 Z=70 Em EH] 3D atlas 强度 图 像 CatlasVoD 


=e 


File Edit View Insert Tools Desktop Window Help 


NGHs|k|828e984-|8/08\/e0 


X=50 Plane zu pane 


Y=60 Plane 


60 











图 8.4 X-50. Y=60 和 Z=70 FHE 3D 目标 强度 图 像 CtargetVol) 


^ atlasSeg Main.m 
2 %Single-Atlas-Based Hippocampus Segmentation 


3 clearall; 
closeall; 
5 load('medical3D data'); 


6 viewBx = 50; viewBy = 60; viewBz = 70; 
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7 myView2('Atlas Image',atlatVol, viewBx, viewBy, viewBz); 


8 myView2('Target Image to be segmented',targetVol,viewBx,viewBy, 
viewBz); 


9 viewLHippoX = 30; viewLHippoY = 28; viewLHippoZ = 25; 
10 viewRHippoX = 28; viewRHippoY = 24; viewRHippoZ = 23; 


11 % cropping margin around manual segmentation in atlas image 
12 margin = 20; 
13 iterLimit = 1000; 


14% objNum = 1 for left, objNum = 2 for right 


15 LIC 

16 5 

17 % For Left Hippocampus 
18 % 

19 objNum = 1; 


20 [cropMovVol_Left, minPosX, maxPosX, minPosY, maxPosY, minPosZ, 
maxPosZ ] =... 


21 crop around ROI(atlatVol, atlasSegVol, objNum, margin); 
22 cropTargetVol Left = targetVol(minPosX - margin:maxPosX + margin, 


23 minPosY = margin:maxPosY + margin, ... 
24 minPosZ - margin:maxPosZ+ margin); 


25 myView2('Target Image around Left ROI ',croplargetVol Left, 
viewLHippoX, viewLHippoY, viewLHippoZ); 


26 movSeg Left = atlasSegVol(minPosX - margin:maxPosX+ margin, ... 
2/ minPosY - margin:maxPosY + margin, ... 
28 minPosZ - margin:maxPosZ + margin); 


29% if the cropped region may include right segment by margin, we clean 
it up here. 

30 movSeg Left = double(movSeg Left = = 1); 

31 myView overlap red('Atlas Set (Moving Intensity Image and its 
manuaal segmentation) around left ROI',... 


32 cropMovVol. Left, viewLHippoX,viewLHippoY,viewLHippoZ, 
movSeg Left); 


33 % Make similar range of intensities for both 3D image for better 
registration 


34 movVol. org = cropMovVol Left; 
35 refVol org = cropTargetVol Left; 
36 LadjMov, adjRef, adjMovRatio, maxOrgMov, minOrgMov] = rough int 
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adjust3(movVol org, refVol org); 


37 movVol 
38 refVol 


adjMov; 
adjRef; 


39 % 3D deformable registration 


40 [movVol updated, Tx, Ty, Tz] = deformableRegister3D(movVol, 41 
refVol, iterLimit); 


4] intAdjustBackMov = rough int adjustBack(movVol. updated, 
adjMovRatio, maxOrgMov, minOrgMov); 


42 movSegVol updatedNN = interp3(movSeg Left, Ty, Tx, Tz, 'nearest'); 


43 myView overlap red('Registration Result from Left ROI of Atlas 
SET gas 
44 intAdjustBackMov, viewLHippoX,viewLHippoY,viewLHippoZ, 
movSegVol updatedNN); 
45 myView overlap red('Segmentation Result for Left ROI of Target 
Image',... 
46 cropTargetVol Left, viewLHippoX,viewLHippoY,viewLHippoZ, 
movSegVol updatedNN); 


47 5 

48 % For Right Hippocampus 

49 % 

50 objNum = 2; 

51 [cropMovVol Right, minPosX, maxPosX, minPosY, maxPosY, minPosZ, 
maxPosZ ] =... 


52 crop around ROI(CatlatVol, atlasSegVol, objNum, margin); 


53 croplargetVol Right = targetVol(minPosX - margin:maxPosX + margin, 


54 minPosY — margin:maxPosY + margin, ... 
55 minPosZ — margin:maxPosZ + margin); 


56 myView2('Target Image around Right ROI',cropTargetVol Right, 
viewRHippoX, viewRHippoY, viewRHippoZ); 


57 movSeg Right = atlasSegVol(minPosX - margin:maxPosX+ margin, ... 
58 minPosY — margin:maxPosY + margin, ... 
59 minPosZ — margin:maxPosZ+ margin); 


60 % if the cropped region may include right segment by margin, we clean 
it up here. 


61movSeg Right = double(movSeg Right = = 2); 
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62 myView overlap green('Atlas Set (Moving Intensity Image and its 
manuaal segmentation) around Right ROI',... 


63 cropMovVol Right, viewRHippoX,viewRHippoY,viewRHippoZ, 
movSeg Right); 


64 5 Make similar range of intensities for both 3D image for better 
registration 


65 movVol org = cropMovVol Right; 

66 refVol org = cropTargetVol. Right; 

67 LadjMov, adjRef, adjMovRatio, maxOrgMov, minOrgMov] =... 
68 rough int adjust3(movVol. org, refVol org); 


69 movVol = adjMov; 
70 refVol = adjRef; 


71% 3D deformable registration 


72 [movVol updated, Tx, Ty, Tz] = deformableRegister3D(movVol, refVol, 
iterLimit); 


73 intAdjustBackMov = rough. int adjustBack(movVol. updated, 
adjMovRatio, maxOrgMov, minOrgMov) ; 


74 movSegVol. updatedNN = interp3(movSeg Right, Ty, Tx, Tz, 'nearest'); 


/5 myView overlap green('Registration Result from Right ROI of Atlas 
SOL 43 


/6 intAdjustBackMov, viewRHippoX,viewRHippoY,viewRHippoZ, 
movSegVol updatedNN):; 


77 myView overlap green('Segmentation Result for Right ROI of Target 
Image',... 


/8 croplargetVol Right, viewRHippoX,viewRHippoY,viewRHippoZ, 
movSegVol_updatedNN) ; 


79 toc 

Jy f vie) ACHE RE Pe ae, we OU A RAE K Sl (Region of Interest, 
ROI) (Jl atlasSeg Main.m 中 20—24 行 )。 因 为 大 脑 包括 两 个 海马 体 ， 我 们 将 atlas 
图 像 和 目标 图 像 裁 盘 为 左 ROI MA ROI 两 个 区 域 。 基 于 atlas 手动 分 制 目标 进行 区 
IBY, FPP AAR EE 

图 8.5 给 出 了 从 围绕 左海 马 体 分 割 模板 〈 在 X. 了 和 Z SAT A 20 
个 像素 的 余 量 ) 的 atlas 图 像 得 到 的 裁剪 结果 。 图 8.5 中 的 第 一 行 给 出 了 ROI 的 强 
E atlas 图 像 ， 第 二 行 给 出 了 对 应 强度 atlas 图 像 的 手动 分 制图 像 ， 第 三 行 给 出 了 重 
县 图 像 。 左 海马 体 模板 值 设 为 1 CIS 19 行 中 objNum=1)， 而 右 海马 体 模板 值 设 
为 2〈 见 第 50 行 中 objNum=2)。 这 样 基于 模板 值 ， 就 可 以 很 容易 地 将 它们 分 为 右 
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ROI 和 左 ROI。 图 8.6 给 出 了 围绕 右 海马 体 分 割 模板 的 裁剪 结果 。 
B] Atias Set (Moving ebe EE 


File Edit View Insert Tools Desktop Window Help 
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图 8.5 X-30. Y=28 和 Z=25 平面 上 atlas 图 像 集 的 左 ROI CeropMovVol Left), 
对 于 左海 马 体 ， 模 板 值 设 为 1( 如 最 下 一 排 图像 所 示 ) 
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BI Atlas Set (Moving Intensity Image and its manuaal segmentation) around Right RO Sox) 
File Edit View Insert Tools Desktop Window Help 
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图 8.6 X-28. Y=24 和 Z=23 平面 上 atlas 图 像 集 的 右 ROI (cropMovVol Right) , 
对 于 右 海 马 体 ， 模 板 值 设 为 2( 如 最 下 一 排 图 像 所 示 ) 
图 8.7 和 图 8.8 给 出 了 目标 图 像 的 裁 交 结果 ， 且 目标 图 像 和 切 制 atlas BIS 
TH IR] HS AA s vu. A o 
由 于 要 将 裁剪 atlas Al RA BY D rr Riet, DI rr BY atlas 图 像 为 移动 图 
f& (Moving Image， 见 第 34 412, WES H bs ER 2g 7 E (Reference Image, Ji. 
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"B 35 477). TERT SU ES EUNT 5 BRR IC DR DUT CAE RL CNS 36 
行 的 rough int adjust3 )， 运 行 第 40 行 的 deformableRegister3D. vH] 3D 转换 
(Tx, Ty, T) 将 atlas 分 割 模板 〈 见 第 42 行 ) 转换 为 目标 图 像 的 最 终 分 割 模 板 。 
结果 如 图 8.9 和 图 8.10 所 示 。 能 够 通过 设置 左海 马 体 的 viewLHippoX 、 
viewLHippoY ~ viewLHippoZ 和 右 海 马 体 的 viewRHippoX . viewRHippoY 、 
viewRHippoZ 调整 结果 平面 。 





Target Image around Left ROI 





File Edit View Insert Tools Desktop Window Help 
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K|8.8 X-28. Y-24 和 Z-23 平面 上 目标 图 像 集 的 右 ROI CeropTargetVol Right) 
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File Edit View Insert Tools Desktop Window Help 
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BI Segmentation Result for Right ROI of Target Image 
| File Edit View Insert Tools Desktop Window Help 
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图 8.10 右 海马 体 的 目标 分 割 结 


1000 
Elapsed time is 609.036528 seconds. 
图 8.11 atlasSeg Main.m 运行 时 间 
尽管 图 8.9 和 图 8.10 中 的 分 割 结果 看 起 来 很 合适 ， 但 是 左海 蕊 体 和 右 海 马 体 
的 atlasSeg Main.m 运行 时 间 均 约 为 609 s。 下 面 分 析 整 个 运算 过 程 最 为 耗 时 的 运算 
TE. 





E, 
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8.9 ”通过 分 析 进 行 CODA 最 优 设 计 


8.3.1 分 析 MATLAB 代码 


177 


现在 ， 在 MATLAB 中 使 用 Profiler 分 析 代 人 码 。 输 入 主 文件 名 atlasSeg_Main 并 
运行 。 图 8.12 为 分 析 结 果 ， 从 图 中 能 够 清晰 地 看 到 ， 总 运行 时 间 的 95% 来 目 函数 





deformableRegiser3D 。 如 果 在 分 析 结 果 中 点 击 deformableRegiser3D 行 ， 能 够 获得 


如 图 8.13 所 示 更 详细 的 分 析 结 来 。 


atlasSeg_Main (1 call, 793.349 sec) 
Generated 13-Jul-2013 10:53:57 using cpu time. 


script in file CUser ol ments WAT mple\m 


nly\atl 


Main.m 





to new window for comparing multiple run 





This function changed during profiling or before generation of this report. Results may be incomplete or inaccurate. 


V] Show parent functions [V] Show busy lines 


¥) Show child functions 


[v] Show Code Analyzer results 加 Show file coverage 加 Show function listing 


Parents (calling functions) 
No parent 


Lines where the most time was spent 


Line Number Code 

[3 [movVol updated, Tx, Ty, Tz] =... 1 
45 [movVol updated, Tx, Ty, Tz) =... 1 
21 [cropMovVol Left, minPosX, max... 1 
55 [cropMovVol Right, minPosX, ma... 1 
3 load('medical3D data'); 1 
All other lines 

Totals 


Children (called functions) 


Function Name 


Calls Total Time 


96 Time Time Plot 


395.382 s 49.89%  NENEEEEN 
393.943 s 49.7%  NENEEEN 
0.547 s 0.1% 
0.541 s 0.1% 
0.462 s 0.1% 
2.474 s 0.3% 
793.349 s | 10096 


Function Type Calls Total Time % Time Time Plot 
2 789.321 s 995%  EENENNNNNNEEEENN 








deformableRegister3D. function 

D round R unction 2 005 s 

myView2 function H 0.761 s 
Vi | n function 3 0.739 s 

myView overlap red function 3 0.731 s 

close function 1 0.146 s 


图 8.12 


0.1% 
0.1% 
0.1% 
0.0% 


deformableRegister3D (2 calls, 789.321 sec) 


Generated 13-Jul-2013 10:55:32 using cpu time. 
function in file C:\Users\jsuh\ ments\MATI 
Copy to new window for comparing multiple runs 


[V] Show parent functions 








[V] Show busy lines 


mple\m 


V] Show child functions 


[V] Show Code Analyzer results [V] Show file coverage [V] Show function listing 


Parents (calling functions) 
Function Name Function Type Calls 


atlasSeg Main 


script 2 


Lines where the most time was spent 


Line Number Code 

50 regZ = cal regularization(Tz, ... 
48 regX = cal regularization(Tx, ... 
49 regY = cal regularization(Ty, ... 
34 movVol updated = interp3 (movVo. 
36 movXGrad * interp3 (movXGrad Or. 
All other lines 

Totals 


Children (called functions) 


Function Name 


-. | 2000 
.. | 2000 


% Time 
26.396 
26.396 


Total Time 
207.400 s 
207.363 s 
207.319 s 
40.613 s 


26.3% 
5.1% 

39.170 s 
87.457 s 


5.0% 
11.1% 


789.321 s | 10096 


Function Type Calls Total Time % Time Time Plot 


主 函 数 分 析 结 果 CatlasSeg Mam mi 


Time Plot 








function 6000 

function 8000 
cal delta function 6000 
al. deformation for function 6000 
meshgrid function 2 


621.367 s 78.79. MMM 
154.744 s 19.6% M 

4.413 s 0.6% | 

2.716 s 0.396 

0.005 s 0.096 


图 8.13 ”消耗 大 部 分 主 函 数 运算 时 间 的 deformableRegister3D 模块 分 析 结 
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1 function [movVol updated, Ix, Ty, Tz] = deformableRegister3D 
(movVol, refVol, iterLimit) 


2 [refX, refY, refZ] = size(refVol) 
3 [Ty,Tx,Tz] = meshgrid(1:refY,1:refX,1:ref2); 


5 calculate gradient for moving volume 
[movX, movY, movZ] = size(movVol) 
movXGrad Org = zeros(movX, movY, movZ ) ; 
movYGrad Org = zeros(movX, movY, movZ) ; 
movZGrad Org = zeros(movX, movY, movZ) ; 


oOo N On OO A 


9 movXGrad = zeros(movX, movY, movZ); 

10 movYGrad = zeros(movX, movY, movZ); 

11 movZGrad = zeros(movX, movY, movZ); 

12movXGrad Org(2:end—1,2:end— 1,2:end— 1) 2 movVol(3:end,2:end — 1,2: 
end—1)-movVol(1:end—-2,2:end—- 1,2:end —- 1); 

13movYGrad Org(2:end— 1,2:end— 1,2:end— 1) 2 movVol(2:end — 1,3:end,2: 
end—1) —movVol(2:end—1,1:end - 2,2:end—- 1); 

14 movZGrad Org(2:end—-1,2:end— 1,2:end — 1)2movVol(2:end— 1,2:end — 1,3: 
end) - movVol(2:end—1,2:end — 1,1:end - 2); 


15 forceX = zeros(refX, refY, refZ); 
16 forceY = zeros(refX, refY, refZ); 
17 forceZ = zeros(refX, refY, refZ); 


18 regX = zeros(refX, refY, refZ); 
19 regY = zeros(refX, refY, refZ); 
20 regZ — zeros(refX, refY, refZ); 


21 delta Tx = zeros(refX, refY, refZ); 


22 delta Ty = zeros(refX, refY, refZ); 
23delta Tz = zeros(refX, refY, ref2Z); 


24 for iter = l:iterLimit 


25 iter 
26 movVol. updated = interp3(movVol, Ty, Tx, Tz); % make movVol in the ref 


space 
27 movXGrad = interp3(movXGrad, Org, Ty, Tx, Tz); 

28 movYGrad = interp3(movYGrad Org, Ty, Tx, Tz); 

29 movZGrad = interp3(movZGrad, Org, Ty, Tx, Tz); 

30 % calculate deformation force 

3] forceX = cal deformation force(refVol, movVol, updated, movXGrad) ; 
32 forceY = cal. deformation force(refVol, movVol. updated, movYGrad); 
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33 forceZ = cal. deformation force(refVol, movVol. updated, movZGrad); 
34 % Regularization 

35 4 Regularization makes the registration smoother warps. 

36 regulFactor =0.1; 

37 regX = cal regularization(Tx, regulFactor); 

38 regY = cal_regularization(Ty, regulFactor); 

39 regZ = cal regularization(Tz, regulFactor); 


40 

41 stepSize- 1.0; 

42 delta Tx = cal. delta(forceX, regX, stepSize); 
43 delta Ty = cal. delta(forceY, regY, stepSize); 


44 delta [Iz = cal. delta(forceZ, regZ, stepSize); 
45 Tx = Tx+ delta Tx; 

46 Ty = Ty+ delta Ty; 

47 Tz 2 Tz* delta Tz; 

48 Tx = max(min(Tx, refX), 1); 

49 Ty = max(min(Ty, refY), 1); 

50 Tz = max(min(Tz, refZ), 1); 

5lend 


在 deformableRegister3D 模块 的 详细 分 析 结 果 中 能 够 看 出 cal regularization 是 最 性 - 
的 子 模块 ，interp3 是 次 忙 的 子 模块 。 图 8.14 标 出 了 运算 繁忙 模块 ， 即 deformable 
Register3D 中 阴影 部 分 。 

仔细 研究 cal regularization 子 模块 。 点 击 分 析 结 果 中 的 al regularization 行 ， 能 够 
看 到 更 详细 的 分 析 结 果 ， 如 图 8.15 和 图 8.16 所 示 。 由 分 析 结 果 可 知 ， 大 部 分 时 间 用 于 
提取 周围 梯度 值 (前 ， 后 ， 上 ， 下 ， 左 ， 右 ) 与 此 处 梯度 值 乙 震 ， 得 到 正则 化 变形 。 

由 图 8.13 可 以 得 出 interp3 是 次 耗 时 子 模 块 。 点 击 图 8.13 中 的 interp3， 得 到 
如 图 8.17 所 示 分 析 界 面 。 由 于 在 deformableRegister3D 模块 中 使 用 的 interp3 是 
MATLAB 内 置 函 数 ， 明 确 此 代码 的 运算 瓶 领 不 太 容 易 ， 因 为 MATLAB 内 置 函 数 
通 弟 包含 多 种 选项 多 层次 且 是 高 度 优化 的 。 
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析 绪 果 ， 闹 腕 占用 最 多 运算 时 间 的 子 模块 以 局 党 显示 
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图 8.14 deformableRegister3D 4j 
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cal regularization (6000 calls, 621.367 sec) 
Generated 13-Jul-2013 10:56:11 using cpu time. 


function in file C:\Users\jsuh\Documents\MATLAB_sample\m_code_Only\cal_regularization.m 
Copy to new window for comparing multiple runs 


Show parent functions Show busy lines Show child functions 
Show Code Analyzer results [V] Show file coverage 加 Show function listing 


Parents (calling functions) 


Function Name Function Type Calls 
deformableRegister3D | function 6000 


Lines where the most time was spent 


Line Number Code Calls Total Time % Time Time Plot 

13 regularization(i,j,k) -(gradIm... 1000242000 514.208 s | 82.8%  aENEENEEN 
20 | end 1000242000 | 100.289 s | 16.196 um | 
11 Sor kedr (wien 19242000 |3510s 06% | 

21 | end 19242000 1626s 03% — 

L regularization = zeros(sizeX, ... 6000 1.607 s | 0.3% 

All other lines | 0.127 s 0.0% 

Totals | (621.367 s | 100% 


8.15 cal regularization 子 模 块 分 析 总 结 


Children (called functions) 
No children 


Code Analyzer results 
No Code Analyzer messages. 
Coverage results 
Show coverage for parent directory 
Total lines in function 21 





Non-code lines (comments, blank lines) | 12 

















Code lines (lines that can run) 9 
Code lines that did run Kë I 9 
Code lines that did not run | 0 
Coverage (did run/can run) | 100.00 96 | 





Function listing 
Color highlight code according to 


time calls line 
function regularization = cal regularization(gradImg, factor) 
3 % Laplacian smoothing as a regularization method 


4 

« 0.01 6000 5 [sizeX, sizeY, sizeZ] = size(gradImg); 
€ 
7 


1.61 6000 regularization = zeros(sizeX, sizeY, sizeZ): 
€ D.Di 6000 9 for i=2: (sizeX-1) 

0.07 381000 10 for j=2: (sizeY-1) 

3.51 19242000 11 for k=2: (sizeZ-1) 


^ 


514.21 1000242000 





100.29 1000242000 20 end 


1.63 19242000 21 end 


0.04 381000 22 end 


8.16 cal regularization 子 模块 逐 行 详细 分 析 
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interp3 (8002 calls, 153.612 sec) 

Generated 15-Jul-2013 14:20:46 using cpu time. 

function in file C:\Program Files\MATLAB\R2012a\toolbox\matlab\polyfun\interp3.m 
Copy to new window for comparing multiple runs 


[v] Show parent functions [V] Show busy lines [V] Show child functions 








[7] Show Code Analyzer results (7) Show file coverage [V] Show function listing 


Parents (calling functions) 


Function Name Function Type | Calls 
deformableRegister3D | function 8000 
atlasSeg Main script 2 


Lines where the most time was spent 


Line Number | Code Calls Total Time % Time Time Plot 
170 Vq = F(Xq,Yq,Zq); % NDGRID fo... |8002 118181s | 76.990. EEEEEEEEEEENI 
167 Xq = permute (Xq, p) ; 8002 5.598 s 3.6% | 

168 Yq = permute (Yq, p) ; 8002 | 5.365 s 3.5% 1 

103 V = permute (V, p); 8002 | 5.287 s 3.4% | 

169 Zq = permute (Zq, p); 8002 5.148 s 3.4% 1 

All other lines 14.033s 9.196 El 

Totals 153.612s | 10096 


图 8.17 interp3 子 模块 分 析 总 结 


8.3.2 ”结果 分 析 和 CUDA 最 优 设计 

从 分 析 结 果 中 能 够 发 现 cal regularization Jh f BATA H interp3 Jah CR 
块 。 所 以 必须 要 用 CUDA 和 c-mex 代替 这 两 个 模块 来 提高 整个 分 割 进程 的 速度 。 但 
是 ， 再 仔细 观察 deformableRegister3D 模块 。 在 如 下 deformableRegister3D 代码 中 ， 
cal regularization 和 interp3 位 于 迭代 循环 中 ， 并 且 有 一 些 其 他 模块 位 于 其 前 后 。 


1 function [movVol updated, Tx, Ty, Tz] = deformableRegister3D 
(movVol, refVol, iterLimit) 











24 for iter = 1l:iterLimit 


25 iter 


26 movVol_updated = interp3(movVol, Ty, Tx, Tz); 4make movVol in the ref 
Space 


27 movXGrad = interp3(movXGrad Org, Ty, Tx, Tz); 
28 movYGrad = interp3(movYGrad, Org, Ty, Tx, Tz); 
29 movZGrad = interp3(movZGrad Org, Ty, Tx, Tz); 
30 4 calculate deformation force 


31 forceX = cal. deformation force(refVol, movVol. updated, 
movXGrad); 


32 forceY = cal deformation force(refVol, movVol updated, 
movYGrad); 


33 forceZ = cal_deformation_force(refVol, movVol_updated, 
movZGrad) ; 
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34 % Regularization 

35 % Regularization makes the registration smoother warps. 
36 regulFactor =0.1; 

37 regX = cal regularization(Tx, regulFactor); 
38 regY = cal_regularization(Ty, regulFactor); 
39 regZ = cal regularization(Tz, regul Factor); 
40 

41 stepSize = 1.0; 

42 delta Ix = cal. delta(forceX, regX, stepSize); 
43 delta Ty = cal. delta(forceY, regY, stepSize); 
44 delta Tz = cal. delta(forceZ, regZ, stepSize); 
45 Tx 2 Tx+ delta Tx; 

46 Ty = Ty+ delta Ty; 

47 Tz = Tz+ delta Tz; 

48 Tx = max(min(Tx, refX), 1); 

49 Ty 2 max(min(Ty, refY), 1); 

50 Tz = max(min(Tz, refZ), 1); 

51 end 


所 以 ， 如 果 仅 将 这 两 个 函数 用 CUDA 可 用 的 c-mex AACR, Ab Are ACH 
CPU 和 GPU 内 存 之 间 的 数据 传输 在 这 两 个 模块 前 后 都 需要 进行 。 这 些 过 程 中 的 数 
据 传 输 需 要 很 多 开销 并 使 整个 过 程 效率 降低 。 

因此 ， 为 减 小 CPU 和 GPU 存储 帮 之 则 数据 传输 ， 最 好 的 办 法 是 将 达 代 循环 全 
部 转换 为 GPU 代码 ， 这 样 能 够 避免 碗 代 中 CPU 和 GPU 设备 之 间 的 全 部 数据 传输 。 


8.4 (DA 转换 全 一 正则 化 


接 下 来 开始 转换 cal regularization， 该 子 模块 是 分 析 显 示 中 最 耗 时 函数 。 在 
m code partialCuda 示例 文件 夹 中 ， 主 模块 atlasSeg PartialCuda.m 和 之 前 的 
atlasSeg Main.m 有 几乎 相同 的 结构 。 





1 #include "mex.h" 

2 +#include <cuda_runtime.h> 

3 #include "cal regularization cuda.h" 

4 

5 //function regularization = cal regularization(gradImg, factor); 

6 void mexFunction(int nlhs, mxArray *plhsL[], int nrhs, const mxArray 
*prhs[1) 

7 1 

8 if (nrhs ! 2 2) 

9 mexErrMsgTxt("Invalid number of input arguments"); 

10 

11 if Colne r= 1) 
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12 mexErrMsgTxt("Invalid number of outputs"); 
13 

14 for (inti =0; 1<nrhs;++1) 

15 { 

16 if (!ImxIsDouble(prhs[i])) 

17 { 

18 mexErrMsgTxt("input vector data type must be double"); 
19 break; 

20 j 

21 j 

22 


23 const mwSize* size = mxGetDimensions(prhsL0]); 

24 int sizeX = size[0]; 

25 int sizeY = size[1]; 

26 int sizeZ = size[2]; 

27 

28 // inputs 

29 double* gradImg = (double*)mxGetData(prhs[0]); 

30 double factor = *((double*)mxGetData(prhs[1]1)); 

Ex 

32 // outputs 

33 plhs[0] = mxCreateNumericArray(3, size, mxDOUBLE CLASS, mxREAL) ; 
34 double* regularization = (double*)mxGetData(plhs[0]); 
35 


36 // calRegularization cuda 

37 calRegularization(gradImg, factor, regularization, sizeX, sizeY, 
sizeZ); 

38 

39 cudaError t error = cudaGetLastError(); 

40 if (error ! = cudaSuccess) 

41 { 

42 mexPrintf("%s\n", cudaGetErrorString(error)); 

43 mexErrMsgTxt("CUDA failedNin"); 

44 } 

45 } 


cal_regularization_cuda.h 


1 #ifndef _ CALREGULARIZATION_H__ 
2 #define _CALREGULARIZATION_H__ 


d 

4 extern void cal Regularization(double* in, double factor, double* out, 
5 int sx, Int Sy, int sz): 

6 

7 +#endif // | CALREGULARIZATION H ` 


calRegularization.cu 
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1 | global void calRegularizationKernel(double* in, double factor, 


double* out, 
Int Sx, Int SY, Tit Sz) 


int i = blockIdx.x * blockDim.x+ threadIdx.x; 

// compute capability >= 2.x 

//int j = blockIdx.y * blockDim.y+ threadIdx.y; 
//int k =blockIdx.z * blockDim.z+ threadIdx.z; 

// compute capability < 2.x 

int gy = (sy+ blockDim.y —1) / blockDim.y; 

int j = (blockIdx.y 4 gy) * blockDim.y+ threadIdx.y; 
int k = (blockIdx.y / gy) * blockDim.z+ threadIdx.z; 


M OIL rees ess EN 
Jelli >= sy-1]| 
kæ 1llk>= 52-1) 
return; 


int idx =sx* (sy*k+j)+1; 
double org = inLidx]; 
outLidx] = (in[sx* (sy*k+j)+i1-l1]-—org+ 
in[sx* (sy* k+j)+i+1]-—org + 
in[sx* (sy*k+j-1)+ijJ—org + 
in[sx* (sy*k+j+1)+i]-—org + 
TOLSK * {sy * CK —1) a) + 11—0Pg + 
inLsx * (sy * (k+1)+ j)+ il]- org) * factor; 


28 void calRegularization(double* in, double factor, double* out, 


29 
30 { 
31 
32 
ES 
34 


25 
36 
ER 
38 
39 
40 
41 
42 
43 
44 
45 


Int SX Wit Sy. Ee? 


int totalSize = sx * sy * SZ; 

double* devT = 0; 

cudaMalloc(&devT, sizeof(double) * totalSize); 
cudaMemcpy (devT, in, sizeof(double) * totalSize, 
cudaMemcpyHostToDevice): 


// temps 

double* devReg = 0; 

cudaMalloc(&devReg, sizeof(double) * totalSize); 
cudaMemset(devReg, 0, sizeof(double) * totalSize); 


dim3 blockSize(4,4, 4); 

// compute capability >= 2.x 

//dim3 gridSize((sx+ blockSize.x— 1) / blockSize.x, 
/ / (sy+ blockSize.y — 1) / blockSize.y, 
/ / (sz * blockSize.z— 1) / blockSize.z); 
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46 // compute capabiltiy « 2.x 

47 int gy = (sy * blockSize.y — 1) / blockSize.y; 

48 int gz = (sz+ blockSize.z—-1) / blockSize.z; 

49 dim3 gridSize((sx+ blockSize.x-1) / blockSize.x, gy * gz, 1); 

50 

51 calRegularizationKernel « « «gridSize, blockSize» > »(devT, 
factor, devReg, 

57 SX; SV. SZ); 

53 

54 cudaMemcpy(out, devReg, sizeof(double) * totalSize, 
cudaMemcpyDeviceloHost) ; 

55 cudaFree(devReg); 

56 cudaFree(devT); 

57 } 


可 以 通过 在 MATLAB 命令 窗口 使 用 mex 命令 创建 c-mex 文件 。 但是， 首先 
要 使 用 nvcc 编译 器 编译 CUDA 函数 ， 并 在 调用 mex 时 链接 到 目标 。 你 可 以 创建 
c-mex 文件 ， 如 下 所 示 : 

e 在 Mac OS X 操作 系统 中 


% mac 

system(' /Developer/NVIDIA/CUDA-5.0/bin/nvcc -c calRegularization.cu 
-m64 -Xptxas -v'); 

mex cal regularization cuda.cpp calRegularization.o -lcudart -L"/ 
Developer/NVIDIA/CUDA-5.0/lib" - I"/Developer/NVIDIA/CUDA-5.0/ 
include" -v 


e 在 Windows 64 位 操作 系统 中 


5 MS Windows 
system('nvcc -c calRegularization.cu -Xptxas -v'); 


mex cal regularization cuda.cpp calRegularization.obj -lcudart -L"C: 
\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v5.0\1lib\x64" -I"C: 
\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v5.0\include" -v 


WR BIE Microsoft C 编 详 器 路 径 有 问题 ， 可 以 明确 地 设置 编译 器 路 径 如 下 : 


5 MS Windows 
system('nvcc -c calRegularization.cu -Xptxas -v -ccbin "C:\Program Files 
(x86)\Microsoft Visual Studio 10.0\VC\bin"'); 


然后 ， 稍 微 修 改 deformableRegister3D(...) PK Sr HHI c-mex 版 本 。 修 改 后 函数 
为 deformableRegister3D partialCuda.m. 


1 function [movVol updated, Ix, Ty, Tz] = deformableRegister3D partial 
Cuda(movVol, refVol, iterLimit) 

[refX, rer. refZ] = size(refVol) 

[Ty,Tx,Tz] = meshgrid(1:refY,1:refX,1:refZ); 


me W n3 


% Calculate gradient for moving volume 
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[movX, movY, movZ] = size(movVol) 

movXGrad. Org = zeros(movX, movY, movZ) ; 
movYGrad Org = zeros(movX, movY, movZ) ; 
movZGrad Org = zeros(movX, movY, movZ) ; 


LO OO NM O» 


10 movXGrad = zeros(movX, movY, movZ); 
11 movYGrad = zeros(movX, movY, movZ); 
12 movZGrad = zeros(movX, movY, movZ); 


13 movXGrad Org(2:end—1,2:end— 1,2:end-1) 2 movVol(3:end,2:end — 1,2: 
end—1) —-movVol(1:end—-2,2:end—- 1,2:end — 1); 

14 movYGrad Org(2:end—1,2:end—- 1,2:end— 1) 2 movVol(2:end — 1,3:end, 
2:end —1) — movVol(2:end—- 1,1:end —-2,2:end — 1); 

15 movZGrad Org(2:end—1,2:end-1,2:end — 1) 2» movVol(2:end — 1,2:end— 1, 
3:end) — movVol(2:end— 1,2:end— 1,1:end —- 2); 


16 forceX = zeros(refX, refY, refZ); 
17 forceY = zeros(refX, refY, refZ); 
18 forceZ = zeros(refX, refY, refZ); 


19 regX = zeros(refX, refY, refZ); 
20 regY = zeros(refX, refY, refZ); 
21 regZ = zeros(refX, refY, refZ); 


22 delta Tx = zeros(refX, refY, refZ); 
23 delta Ty = zeros(refX, refY, refZ); 
24 delta Tz = zeros(refX, refY, refZ); 


25 for iter 2 l:iterlimit 

26 iter 

2/ movVol. updated = interp3(movVol, Ty, Tx, Tz); % make movVol in the ref 
Space 


28 movXGrad = interp3(movXGrad Org, Ty, Tx, Tz); 
29 movYGrad = interp3(movYGrad Org, Ty, Tx, Tz); 
30 movZGrad = interp3(movZGrad Org, Ty, Tx, Tz); 


3l 5 calculate deformation force 

32 forceX = cal. deformation force(refVol, movVol updated, movXGrad) ; 
33 forceY = cal. deformation force(refVol, movVol. updated, movYGrad) ; 
34 forceZ = cal. deformation force(refVol, movVol. updated, movZGrad); 
35 5 Regularization 

36 5 Regularization makes the registration smoother warps. 

37 regulFactor = 0.1; 

38 regX = cal regularization cuda(Tx, regul Factor); 

39 regY = cal regularization cuda(Ty, regulFactor); 
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40 regZ = cal regularization cuda(Tz, regulFactor); 


41% stepSize- 0.5; 

42 stepSize = 1.0; 

43 delta Ix = cal. delta(forceX, regX, stepSize); 
44 delta, lLy = cal. delta(forceY, regY, stepSize); 
45 delta Tz = cal. delta(forceZ, regZ, stepSize); 


46 Tx = Tx+ delta Tx; 
47 Ty 2 Ty+ delta Ty; 
48 Tz = Tz* delta Tz; 


49 Tx =max(min(Tx, refX), 1); 
50 Ty = max(min(Ty, refY), 1); 
5] Tz 2 max(min(Tz, refZ), 1); 
52 end 





将 cal regularization 转换 为 CUDA 版 本 后 ， 碳 海马 体 和 左海 马 体 分 割 的 总 运 
行 时 间 都 减少 为 182s CULÉ] 8.18)， 比 atlasSeg Mamm HAZ 3.34 倍 。 如 前 所 
述 ， 对 cal regularization 单独 进行 CUDA fh, JAPA CPU 和 GPU 存储 之 间 
的 数据 传输 太 频 索 。8.5 市 中 ， 我 们 将 进行 整个 运算 的 CUDA 转换 。 


999 


iter - 
1000 


Elapsed time is 182.141124 seconds. 


图 8.18 atlasSeg PartialCuda.m 运行 时 间 


85 CUDA 转换 2 一 一 图 像 配 准 


本 市 中 ， 我 们 试图 将 deformableRegister3D H If] A SIG TEA HRA c-mex 和 
CUDA 函数 。 为 了 最 小 化 主机 和 设备 之 间 的 数据 传输 ， 将 循环 中 的 每 个 操作 都 改 
X CUDA 调用 。 共 创建 5 个 CUDA WRZL 


MATLAB CUDA 内 核 函 数 

interp3(...) Gal LEES Set Ss OSS 

cal deformation force calDerornati onrorce=< «xu o 
cal delta calDelta<<<...>>> 
cal_regularization calRegularization<<<...>>> 
TX = Tx+ delta Tx; updatePos<<<...>>> 


Tx 2 max(min(Tx, refx), 1); 
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我 们 的 线程 块 由 4x4x4 线程 组 成 ， 即 每 个 线程 块 共 64 线程 。 线 程 网 格 大 小 是 
基于 线程 块 尺 寸 和 列 尺 寸 。 确 定 线程 网 格 和 线程 块 的 大 小 为 : 


dim3 blockSize(4, 4, 4); 


// compute capability >= 2.x 

//dim3 gridSize((sx+ blockSize.x—1) / blockSize.x, 
// (sy+ blockSize.y —1) / blockSize.y, 

// (sz+blockSize.z—1) / blockSize.z); 


// compute capabiltiy < 2.x 

int gy = (sy+ blockSize.y — 1) / blockSize.y; 

int gz = (sz+ blockSize.z— 1) / blockSize.z; 

dim3 gridSize((sx+ blockSize.x— 1) / blockSize.x, 
gy * gz, 
125 


注意 ， 根 据 GPU 的 计算 能 力 ， 线 程 网 格 大 小 可 能 文 持 ， 也 可 能 不 文 持 三 维 。 
当 不 文 持 三 维 线程 网 格 时 ， 通 过 二 维 进行 传输 ， 然 后 如 第 7 ern, EA IK 
数 中 恢复 它们 。 

int i = blockIdx.x * blockDim.x + threadIdx.x; 


// compute capability >= 2.x 
//int j = blockIdx.y * blockDim.y+ threadIdx.y; 
//int k 2 blockIdx.z * blockDim.z+ threadIdx.z; 


// compute capability « 2.x 

int gy = (sy * blockDim.y —1) / blockDim.y; 

int j = (blockIdx.y 2 gy) * blockDim.y+ threadIdx.y; 
int k = (blockIdx.y / gy) * blockDim.z  threadIdx.z; 


一 旦 根据 体积 确定 线程 网 格 和 块 的 大 小 ， 在 GPU 设备 上 给 输入 和 和 输出 分 配 存 
储 空间 。 然 后 使 用 cudaMemcpy(...) MELE] GPU Ep. ERIA P 
调用 内 核 函 数 。 在 特定 数量 的 迭代 后 ， 将 结 末 传 回 主机 。 

共有 两 个 主要 文件 : register3D.cpp 和 register3D cuda.cu. register3D.cpp 执行 
c-mex 的 子 例 行程 序 且 调用 register3D(...) pk 2. register3D cuda.cu 执行 所 有 
CUDA JA rä GPU 的 存储 操作 。 

当 定 义 CUDA 内 核 函 数 后 ， 基 于 GPU 385 887J VJ TA PR ZA n] Be AN B SUI E 
浮 点 运算 。 需 要 确保 你 的 GPU 运算 能 力 文 持 双 精度 。 否 则 ， 需 要 将 数据 转换 为 单 
精度 。 本 例 中 假定 文 持 双 精 度 。 
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registger3D.cpp 


58 #include "mes hi 

59 #include <cuda_runtime.h> 

60 #include "register3D_cuda.h" 

61 

62 // funciton LmovVol_updated, Tx, Ty, Tz] = register3D(movVol, refVol, 


63 // movXGrad Org, movYGrad Org, movZGrad Org, ... 
64 // [x TT Eos 

65 // iterLimit, regulFactor, stepSize); 

66 void mexFunction(int nlhs, mxArray *plhs[], int nrhs, const mxArray 
*prhs[]) 

67 1 

68 if (nrhs ! 2 11) 

69 mexErrMsgTxt("Invaid number of input arguments"); 

70 

71 if (nihs ! 2 4) 

72 mexErrMsgTxt("Invalid number of outputs"); 

73 


74 for (inti 20; i «nrhs; ++i) 

75 { 

76 if (ImxIsDouble(prhs[i])) 

// { 

78 mexErrMsgIxt( "input vector data type must be double"); 
19 break; 

80 j 

al } 

82 

83 const mwSize* size = mxGetDimensions(prhs[0]); 

84 int sx = size[0]; 

85 int sy = size[1]; 

86 int sz = size[2]; 

87 

88 // inputs 

89 double* movVol = (double*)mxGetData(prhs[0]); 

90 double* refVol = (double*)mxGetData(prhsL[1]); 

91 double* movXGrad_Org = (double*)mxGetData(prhs[2]); 
92 double* movYGrad Org = (double*)mxGetData(prhs[3]); 
93 double* movZGrad. Org = (double*)mxGetData(prhs[4]); 
94 double* TxIn = (double*)mxGetData(prhs[5]); 

95 double* TyIn = (double*)mxGetData(prhs[6]); 

96 double* TzIn = (double*)mxGetData(prhs[7]); 

97 double iterLimit = *((double*)mxGetData(prhs[8])); 
98 double regulFactor = *((double*)mxGetData(prhs[9])); 
99 double stepSize = *((double*)mxGetData(prhs[10])); 


190 


100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
LI 
118 
119 
120 
121 
122 
123 
124 
129 
126 
127 
128 


129] 
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// outputs 

plhs[0] = mxCreateNumericArray(3, size, mxDOUBLE CLASS, ,mxREAL ) ; 
double* movVol. updated = (double*)mxGetData(plhs[0]); 

plhs[1] 2 mxCreateNumericArray(3, size, mxDOUBLE CLASS, mxREAL) ; 
double* Tx 2 (double*)mxGetData(plhs[1]); 

plhs[2] 2 mxCreateNumericArray(3, size, mxDOUBLE CLASS, mxREAL) ; 
double* Ty = (double*)mxGetData(plhs[2]); 

plhs[3] = mxCreateNumericArray(3, size, mxDOUBLE CLASS, mxREAL) ; 
double* Tz = (double*)mxGetData(plhs[3]); 


// register3D cuda 

register3D cuda(movVol, 
refVol, 
movXGrad Org, 
movYGrad Org, 
movZGrad Org, 
Txin, TylIn,Tzlm, 
movVol updated, 
Tx, TY s. T2; 
SK Sy. 62; 
(int)iterLimit, regulFactor, stepSize); 


cudaError t error = cudaGetLastError(); 

if (error ! 2 cudaSuccess) 

| 
mexPrintf("%s\n", cudaGetErrorString(error) ); 
mexErrMsgTxt("CUDA failed\n"); 


register3D cuda.h 


1 #ifndef | DEFORMABLEREGISTER3D_H__ 
2 #define _DEFORMABLEREGISTER3D_H__ 


3 


4 extern void register3D cuda(double* movVol, // in 


double* refVol, // in 

double* movXGrad Org, // in 
double* movYGrad Org, // in 
double* movZGrad. Org, // in 
double* TxIn, //in 

double* TyIn, //in 

double* TzIn, //in 

double* movVol. updated, // out 
double* Tx, //out 
double* Ty, // out 


15 
16 
17 
18 
19 
20 
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double* Tz, //out 
int sx, int sy, int sz, 
int iterLimit, 

double regulFacotr, 
double stepSize); 


21 #endif // | DEFORMABLEREGISTER3D H ` 


register3D cuda.cu 


22 #include "register3D cuda.h" 


E 


24 global voidcallInterp3(double* Vin, 


25 
26 
27 
28 1 
29 
30 
31 
32 
ES 
34 
30 
36 
34 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
ol 
52 
53 
54 
55 
56 
57 
58 


double* Tx, double* Ty, double* Tz, 
double* Vout, 
int sx, int sy, int sz) 


int i = blockIdx.x * blockDim.x+ threadIdx.x; 

// compute capability >= 2.x 

//int j = blockIdx.y * blockDim.y+ threadIdx.y; 
//int k = blockIdx.z * blockDim.z+ threadIdx.z; 

// compute capability < 2.x 

int gy = (sy * blockDim.y —1) / blockDim.y; 

int j = (blockIdx.y % gy) * blockDim.y + threadIdx.y; 
int k= (blockIdx.y / gy) * blockDim.z * threadIdx.z; 


if (i >= sx-1|lj >= sy-1llk>= sz-1) 


return; 


Int idx =sSx* (sy * KE j)+1; 


double tx = TxLidx]; 
double ty = TyLidx]; 
double tz = TzLidx]; 
int ix = (int)tx- 1; 
int iy = (int)ty- 1; 
int iz = (int)tz- 1; 


int 10x00 = Sx * (sy * 12+ 1y)-F 1X3 

int idxl =sx* (sy*1iz+1y)+ ix+1; 

int idx? = sx* (sy * Iz Ty + 1) 1X; 

int idx3 = sx* (sy* izt+tiy+1)+ix+1; 

Int TAXAS SX (Sy * (IZ 1) iy) T TX 

int 1dx5 = sx* (sy * (1Z+1)+ 1y)+1x+1; 
int idx6 = sx* (sy * (iz+1)+iy+1)+ ix; 
int idx7 = sx* (sy * (iz+1)+ iy+1)+ix+4+1; 


// along x 


191 
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59 double wd = floor(tx+ 1.0) 一 七 X; 

60 double wu=1.0-wd; 

ol double ROO = wd * VinLidx0]+ wu * VinLidx1]; 
62 double R10 = wd * VinLidx2] + wu * VinLidx3]; 
63 double RO1 = wd * VinLidx4] + wu * VinLidx5]; 
64 double R11 = wd * VinLidx6]+ wu * VinLidx7]:; 
65 

66 // along y 

67 wd = floor(ty * 1.0) - ty; 

68 wu — 1l.0-wd; 

69 double RO = wd * ROO + wu * R10; 

70 double Rl = wd * RO1+ wu * R11; 

71 

72 // along z 

73 wd = floor(tz+1.0)-—tz; 

74 wu — 1.0—wd; 


15 

76 VoutLidx] = wd * RO + wu * R1; 

77 ] 

78 

/9 global void calDeformationForce(double* refImg, double* movImg, 

80 double* gradientIimg, double* 
forcelmg, 

81 INL SX, nt sv, Int SZ) 

82 { 


83 int i = blockIdx.x * blockDim.x+ threadIdx.x; 

84 // compute capability >= 2.x 

85 //int j = blockIdx.y * blockDim.y+ threadIdx.y; 

86 //int k =blockIdx.z * blockDim.z+ threadIdx.z; 

87 // compute capability < 2.x 

88 int gy = (sy+ blockDim.y — 1) / blockDim. y; 

89 int j = (blockIdx.y 2 gy) * blockDim.y  threadIdx.y; 
90 int k= (blockIdx.y / gy) * blockDim.z * threadIdx.z; 
91 

92 if (>s sx joe sy i k>s sz) 

93 return; 

94 

95 RE 10x = SX * (sy Kg) +1: 

96 forcelmgLidx] = (refImglLidx]—movimgLidx]) * gradientImgLidx]; 


97 } 

98 

99__global__ void calDelta(double* deformForce, double* resistance, 
100 double* delta, double stepSize, 

101 TNE SX, TL Sya ING Sz) 

102 { 


103 int i = blockIdx.x * blockDim.x+ threadIdx.x; 
104 // compute capability >= 2.x 
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105 //int j = blockIdx.y * blockDim.y + threadIdx.y; 
106 //int k = blockIdx.z * blockDim.z+ threadIdx.z; 
107 // compute capability < 2.x 

108 int gy = (sy * blockDim.y - 1) / blockDim.y; 

109 int j = (blockIdx.y 2 gy) * blockDim.y + threadIdx.y; 
110 int k = (blockIdx.y / gy) * blockDim.z * threadIdx.z; 
E 

112 if dee tee, sy lk >= Sz) 


113 return; 

114 

115 int idx = sx* (sy*k+Jj)+i; 
116 


117 double temp = (deformForceLidx]+ resistance[idx]) * stepSize; 
118 temp = (temp >— 1.0) ? temp : — 1.0; // max 
119 deltaLidx] = (temp < 1.0) ? temp: 1.0; // min 


120 } 

121 

122 global void updatePos (double* deltaX, double* deltaY, double* 
deltaZ, 

123 double* Tx, double* Ty, double* Tz, 

124 int sx, int sy, int sz) 

125-1 


126 int i = blockIdx.x * blockDim.x+ threadIdx.x; 

127 // compute capability >= 2.x 

128 //int j = blockIdx.y * blockDim.y + threadIdx.y; 

129 //int k = blockIdx.z * blockDim.z+ threadIdx.z; 

130 // compute capability < 2.x 

131 int gy = (sy+ blockDim.y —1) / blockDim.y; 

132 int j = (blockIdx.y % gy) * blockDim.y  threadIdx.y; 
133 int k= (blockIdx.y / gy) * blockDim.z  threadIdx.z; 
134 

135 if (i> SX || >= sy | KS= sz) 


136 return; 

137 

138 int idx =sx* (sy*k+j)+i7: 
139 


140 double tempX = TxLidx]+ deltaX[idx]; 
141 double tempY = TyLidx] + deltaYLidx]; 


142 double tempZ = TzLidx]+ deltaZLidx]; 

143 

144 tempX = (tempX < sx) ? tempX : sx; // min 

145 tempY — (tempY « sy) ? tempY : sy; // min 

146 tempZ — (tempZ « sz) ? tempZ : sz; // min 

147 

148 TxLidx] = (tempX » 1.0) ? tempX : 1.0; // max 
149 TyLidx] = (tempY > 1.0) ? tempY : 1.0; // max 
150 TzLidx] = (tempZ » 1.0) ? tempZ : 1.0; // max 
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151} 

152 

153 global void calRegularization(double* in, double factor, double* 
out, 

154 intsx, INT SV, 1G SZ) 

155 1 


156 int i = blockIdx.x * blockDim.x+ threadIdx.x; 

157 // compute capability >= 2.x 

158 //int j = blockIdx.y * blockDim.y+ threadIdx.y; 

159 //int k = blockIdx.z * blockDim.z+ threadIdx.z; 

160 // compute capability < 2.x 

161 int gy = (sy+ blockDim.y —1) / blockDim.y; 

162 int j = (blockIdx.y 2 gy) * blockDim.y + threadIdx.y; 
163 int k = (blockIdx.y / gy) * blockDim.z * threadIdx.z; 
164 

165 if(i«1l||i»^-2sx-1 | 


166 j<ll|[j>=sy-1]| 
167 k«1l|k»-2sz-1) 
168 return; 

169 


170 int idx=sx*(sy*k+ Jj) +i; 
171 double org = inLidx]; 
172 out[idx] = Cin[sx * (sy*k+j)+i-lJ-org + 


173 inLsx * (sy*k+j)+i1+1]-—org + 
174 in[sx* (sy*k+j—1)+i]—-—org + 
175 in[sx * (sy*k+j+1)+ij]J—org+ 
176 inLsx * (sy * (k- 1)- )) - il—-org + 
177 inLsx * (sy*(k+1)+j)+i]-—org)* factor; 
178 } 

179 

180 

181 void register3D_cuda(double* movVol, // in 

182 double* refVol, // in 

183 double* movXGrad Org, // in 
184 double* movYGrad Org, // in 
185 double* movZGrad Org, // in 
186 double* TxIn, //in 

187 double* TyIn, //in 

188 double* TzIn, //in 

189 double* movVol. updated, // out 
190 double* Ix, //out 

191 double* Ty, // out 

192 double* Tz, // out 

193 ILRES. INE SY, "DESS, 

194 int iterLimit, 

195 double regulFactor, 


196 double stepSize) 


197 { 
198 
199 
200 
201 
202 
203 
204 
205 
206 
207 
208 
209 
210 
211 


212 


213 


214 


215 


216 
217 
218 
Zig 
220 
2e 
222 
223 
224 
225 
226 
22] 
228 
229 
230 
2351 
23e 
d oS 
234 
235 
236 
23/7 
238 
239 
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int totalSize = sx* sy * SZ; 


// inputs 

double* devMovVol = 0; 

double* devRefVol = 0; 

double* devMovxGrad_Org = 0; 

double* devMovYGrad_Org = 0; 

double* devMovZGrad_Org = 0; 

cudaMalloc(&devMovVol, sizeof(double) * totalSize); 

cudaMalloc(&devRefVol, sizeof(double) * totalSize); 

cudaMalloc(&devMovXGrad Org, sizeof(double) * totalSize); 

cudaMalloc(&devMovYGrad. Org, sizeof(double) * totalSize); 

cudaMalloc(&devMovZGrad Org, sizeof(double) * totalSize); 

cudaMemcpy(devMovVol, movVol, sizeof(double) * totalSize, 
cudaMemcpyHostToDevice); 

cudaMemcpy(devRefVol, refVol, sizeof(double) * totalSize, 
cudaMemcpyHostToDevice); 

cudaMemcpy (devMovXGrad, Org, movXGrad, Org, sizeof(double) * 
totalSize, cudaMemcpyHostToDevice); 

cudaMemcpy (devMovYGrad Org, movYGrad Org, sizeof(double) * 
totalSize, cudaMemcpyHostToDevice); 

cudaMemcpy (devMovZGrad. Org, movZGrad Org, sizeof(double) * 
totalSize, cudaMemcpyHostToDevice); 


// temps 

double* devMovXGrad = 0; 

double* devMovYGrad = 0; 

double* devMovZGrad = 0; 

double* devForceX = 0; 

double* devForceY = 0; 

double* devForceZ = 0; 

double* devRegX = 0; 

double* devRegY = 0; 

double* devRegZ = 0; 

double* devDeltaTx = 0; 

double* devDeltaTy = 0; 

double* devDeltaTz = 0; 

cudaMalloc(&devMovXGrad, sizeof(double) * totalSize); 
cudaMalloc(&devMovYGrad, sizeof(double) * totalSize); 
cudaMalloc(&devMovZGrad, sizeof(double) * totalSize); 
cudaMalloc(&devForceX, sizeof(double) * totalSize); 
cudaMalloc(&devForceY, sizeof(double) * totalSize); 
cudaMalloc(&devForceZ, sizeof(double) * totalSize); 
cudaMalloc(&devRegX, sizeof(double) * totalSize); 
cudaMalloc(&devRegY, sizeof(double) * totalSize); 
cudaMalloc(&devRegZ, sizeof(double) * totalSize); 
cudaMalloc(&devDeltaTx, sizeof(double) * totalSize); 
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240 cudaMalloc(&devDeltaTy, sizeof(double) * totalSize); 

241 cudaMalloc(&devDeltaTz, sizeof(double) * totalSize); 

242 cudaMemset(devMovXGrad, 0, sizeof(double) * totalSize); 

243 cudaMemset(devMovYGrad, 0, sizeof(double) * totalSize); 

244 cudaMemset(devMovZGrad, 0, sizeof(double) * totalSize); 

245 cudaMemset(devForceX, 0, sizeof(double) * totalSize); 

246 cudaMemset(devForceY, 0, sizeof(double) * totalSize); 

247 cudaMemset(devForceZ, 0, sizeof(double) * totalSize); 

248 cudaMemset(devRegX, 0, sizeof(double) * totalSize); 

249 cudaMemset(devRegY, 0, sizeof(double) * totalSize); 

250 cudaMemset(devRegZ, 0, sizeof(double) * totalSize); 

251 cudaMemset(devDeltaTx, 0, sizeof(double) * totalSize); 

252 cudaMemset(devDeltaTy, 0, sizeof(double) * totalSize); 

253 cudaMemset(devDeltaTz, 0, sizeof(double) * totalSize); 

254 

255 // outputs 

256 double* devMovVol. updated = 0; 

Cy double* devIx = 0; 

258 double* devTy = 0; 

259 double* devTz = 0; 

260 cudaMalloc(&devMovVol updated, sizeof(double) * totalSize); 

261 cudaMalloc(&devTx, sizeof(double) * totalSize); 

262 cudaMalloc(&devTy, sizeof(double) * totalSize); 

263 cudaMalloc(&devTz, sizeof(double) * totalSize); 

264 cudaMemcpy(devMovVol. updated, movVol, sizeof(double) * 

totalSize, cudaMemcpyHostToDevice); 

265 

266 // init Tx, Ty, Tz 

267 cudaMemcpy (devTx, TxIn, sizeof(double) * totalSize, 
cudaMemcpyHostToDevice); 

268 cudaMemcpy(devTy, TyIn, sizeof(double) * totalSize, 
cudaMemcpyHostToDevice):; 

269 cudaMemcpy(devTz, TzIn, sizeof(double) * totalSize, 
cudaMemcpyHostToDevice); 


270 

erl dim3 blockSize(4,4, 4); 

272 // compute capability >= 2.x 

273 //dim3 gridSize((sx+ blockSize.x— 1) / blockSize.x, 
2/4 // (sy+ blockSize.y—-1) / blockSize.y, 

275 // (sz+blockSize.z-1)/blockSize.z); 

276 // compute capabiltiy < 2.x 

277 int gy = (sy * blockSize.y — 1) / blockSize.y; 

2/8 int gz = (sz+ blockSize.z—- 1) / blockSize.z; 

279 dim3 gridSize((sx+ blockSize.x—1) / blockSize.x, 
280 gy * gz, 

281 (BE 

282 


283 


284 
285 
286 for 
287 { 
288 
289 


290 
291 


292 
293 


294 
295 


296 
297 
298 
299 


300 
301 
302 


303 
304 
305 


306 
307 
308 
309 
310 
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calInterp3«« «gridSize, blockSize>> > (devMovVol, devTx, 
devly, devTz, 
devMovVol. updated, sx, Sy, SZ); 


(inti =0; i<iterLimit; ++i) 


// interpolation 

calInterp3«« «gridSize, blockSize>> >(devMovVol, devIx, 
devly, devTz, 

devMovVol_updated, sx, Sy, SZ); 

calInterp3«« <gridSize, blockSize>> >(devMovXGrad_Org, 
devIx, devTy, devTz, 

devMovXGrad, sx, Sy, SZ); 

calInterp3«« <gridSize, blockSize>> > (devMovYGrad Org, 
devTx, devTy, devTz, 

devMovYGrad, sx, Sy, SZ); 

calInterp3«« <gridSize, blockSize>> zs (devMovZGrad Org, 
devTx, devTy, devTz, 

devMovZGrad, sx, Sy, sz); 


// deformation force 
calDeformationForce «« <gridSize, blockSize>> » (devRefVol, 
devMovVol. updated, 

devMovXGrad, devForceX, 

SX, Sy, SZ); 
calDeformationForce<< <gridSize, blockSize>> >(devRefVol, 
devMovVol_updated, 


devMovYGrad, devForceY, 

Sk; Sy SZ); 
calDeformationForce «« <gridSize, blockSize>> >(devRefVol, 
devMovVol. updated, 

devMovZGrad, devForceZ, 

x, SY, SZ); 


// Regularization 
calRegularization<< <gridSize, blockSize>> » (devIx, 
regulFactor, devRegX, sx, Sy, SZ); 
calRegularization «« «gridSize, blockSize>> >(devly, 
regulFactor, devRegY, sx, Sy, sz); 
calRegularization «« «gridSize, blockSize>> > (devIz, 
regulFactor, devRegZ, SX, Sy, Sz); 


// Calculate delta 

double stepSize = 1.0; 

calDelta<< <gridSize, blockSize>> > (devForceX, devRegX, 
devDeltaTx, stepSize, sx, Sy, sz); 

calDelta<< «gridSize, blockSize>> » (devForceY, devRegY, 
devDeltaTy, stepSize, sx, Sy, SZ); 
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318 calDelta<< <gridSize, blockSize>> > (devForceZ, devRegZ, 
devDeltaTz, stepSize, sx, Sy, SZ); 

319 

320 // Update pos 

321 updatePos << <gridSize, blockSize>> > (devDeltaTx, devDeltaTy, 
devDeltaTz, 

S22 devTx, devly, devTz, Sx, Sy, SZ); 

323 

324 //error = cudaGetLastError(); 

325 //if (error ! 2 cudaSuccess) 

326 // exit(-1); 

327 } 

328 

329 


330 // copy outputs 

351 cudaMemcpy (movVol. updated, devMovVol. updated, sizeof(double) * 
totalSize, cudaMemcpyDeviceToHost) ; 

292 cudaMemcpy(Tx, devIx, sizeof(double) * totalSize, 
cudaMemcpyDeviceToHost) ; 

3:53 cudaMemcpy (Ty, devTy, sizeof(double) * totalSize, 
cudaMemcpyDev i ceToHost); 

334 cudaMemcpy(Tz, devTz, sizeof(double) * totalSize, 
cudaMemcpyDeviceToHost); 


336 // free resources 

337 cudaFree(devMovVol); 

338 cudaFree(devRefVol); 

239 cudaFree(devMovXGrad. 0rg); 
340 cudaFree(devMovYGrad_Org); 
341 cudaFree(devMovZGrad_Org) ; 


343 cudaFree(devMovXGrad) ; 
344 cudaFree(devMovYGrad) ; 
345 cudaFree(devMovZGrad) ; 
346 cudaFree(devForceX); 
347 cudaFree(devForceY); 
348 cudaFree(devForceZ); 
349 cudaFree(devRegX) ; 

350 cudaFree(devRegY); 

351 cudaFree(devRegZ) ; 

352 cudaFree(devDeltaTx); 
353 cudaFree(devDeltaTy); 
354 cudaFree(devDeltaTz); 


356 cudaFree(devMovVol_updated); 
35/ cudaFree(devTx); 
358 cudaFree(devTy); 
359 cudaFree(devTz); 
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360 } 


可 以 通过 在 MATLAB 命令 窗口 使 用 mex 命令 创建 c-mex 文件 。 但 首先 要 使 
用 nvcc 编译 器 编译 CUDA 函数 并 在 调用 mex 时 链接 到 目标 。 你 可 以 创建 c-mex 
文件 如 下 所 示 : 

e 在 Mac OS X 操作 系统 中 


A mac 

system('/Developer/NVIDIA/CUDA-5.0/bin/nvcc -c register3D cuda.cu 
-m64 -Xptxas -v'); 

mex register3D.cpp register3D cuda.o -lcudart -L"/Developer/NVIDIA/ 
CUDA-5.0/lib" -I"/Developer/NVIDIA/CUDA-5.0/include" -v 


e 在 Windows 64 位 操作 系统 中 


5 MS Windows 

system('nvcc -c register3D cuda.cu -Xptxas -v'); 

mex register3D.cpp register3D cuda.obj -lcudart -L"C:\Program Files 
\NVIDIA GPU Computing Toolkit\CUDA\v5.0\1ib\x64" -I"C:\Program Files 
\NVIDIA GPU Computing Toolkit\CUDA\v5.0\include" -v 


然后 适当 修改 deformableRegister3D(...) 函数 ， 来 调用 c-mex 版 本 。 修 改 后 的 
ÉIS Dr deformableRegister3D cuda.m. 


function [movVol updated, Tx, Ty, Tz] = deformableRegister3D_cuda 
(movVol, refVol, iterLimit) 


[refX, refY, refZ] = size(refVol) 
[Ty,Tx,Tz] = meshgrid(1:refY,1:refX,1:refZ); 


5 calculate gradient for moving volume 
[movX, movY, movZ] = size(movVol) 
movXGrad Org = zeros(movX, movY, movZ) ; 
movYGrad Org = zeros(movX, movY, movZ); 
movZGrad Org = zeros(movX, movY, movZ); 


movxGrad_Org(2:end—1,2:end—1,2:end—1) 4 movVol(3:end,2:end — 1,2: 
end—1)-movVol(1:end—-2,2:end— 1,2:end —- 1); 
movYGrad Org(2:end—1,2:end— 1,2:end— 1) 2 movVol(2:end — 1,3:end,2: 
end—1) —-movVol(2:end—1,1:end -2,2:end —- 1); 
movZGrad Org(2:end—1,2:end— 1,2:end— 1) 2 movVol(2:end— 1,2:end — 1,3: 
end) -movVol(2:end—1,2:end—- 1,1:end —- 2); 
regulFactor = 0.1; 
stepSize- 1.0; 
[novVol. updated, Tx, Ty, Tz] = register3D(movVol, refVol, ... 
movXGrad Org, movYGrad Org, movZGrad Org, ... 
PX LVS EZ. we. 
iterLimit, regulFactor, stepSize); 
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8.6 CUDA 转换 结果 


先 从 时 间 方 面 检查 使 用 GPU 获得 了 多 少 速 度 提 升 。 在 Profiler 中 运行 
atlasSeg Cuda.m， 如 图 8.19 所 示 。 


movX = 


65 


55 
Elapsed time is 26.080896 seconds. 
图 8.19 atlasSeg Cuda.m 运行 时 间 
经 CUDA 转换 后 ，atlasSeg_Cuda.m 的 左海 马 体 和 右 海马 体 处 理 时 间 大 约 


X 26s, ÞE atlasSeg Main.m 快 约 24 倍 。 让 我 们 看 一 下 CUDA 转换 后 分 析 结 
RETAZE (WA 8.20). 





Profile Summary 
Generated 16-Jul-2013 06:41:37 using cpu time. 


Function Name Calls Total Time Self Time* Total Time Plot 
(dark band = self time) 





1 26.892 s 0.559 s 





deformableRegister3D_cuda 22.830 s 0.033 s 
register3D (MEX-file) 22.792 s 22.792 s 
crop around RO 1.126 s 1.126 s 
imshow 84 0872s 0.119 s I 
myView2 4 0.818 s 0.439 s I 
myView overlap red 3 0.751 s 0.310 s | 
myView overlap green 3 0.733 s 0.294 s | 
newplot 168 0.414 s 0.036 s 
newplot>ObserveAxesNextPlot 168 0.370 s 0.017 s 

cla 132 0.353 s 0.008 s 
graphics\private\clo 132 | 0.345 s 0.155 s | 
imuitools\private\basiclmageDisplay 84 0.317 s 0.084 s 
subplot 66 0.190s 0.067 s 


图 8.20 CUDA 转换 后 主 函 数 CatlasSeg Cudam) 分 析 结 果 
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与 atlasSeg main.m 的 分 析 结 果 相 比 〈( 见 图 8.12), deformableRegister3D cuda 
K BUA FE T Eb ASIN Te]. AR] 8.21 表明 ， 在 deformableRegister3D cuda 函数 中 
register3D 函数 依旧 占 总 处 理 时 间 的 99.8%， 但 总 时 间 为 22.792s。 图 822 为 
register3D 模块 的 分 析 结 果 。 由 于 register3D 模块 是 c-mex 模块 ， 所 以 MATLAB 分 
析 器 无 法 显示 代码 分 析 更 多 的 信息 。 


deformableRegister3D cuda (2 calls, 22.830 sec) 

Generated 16-Jul-2013 06:45:47 using cpu time. 

function in file C:\Users\jsuh\ ments\Books\Chapters\Ch8\codes\m_cod da\deformableRegister. da.m 
Copy to new window for comparing multiple runs 














Refresh 
[V] Show parent functions [V] Show busy lines — [7] Show child functions 
[V] Show Code Analyzer results [V] Show file coverage [V] Show function listing 


Parents (calling functions) 
Function Name | Function Type Calls 


atlasSeg Cuda script 2 


Lines where the most time was spent 





Line Number Code Calls Total Time % Time Time Plot 
17: [movVol updated, Tx, Ty, Tz] 7... 2 22795s 98% ` E 
3 (Ty, Tx, Tz] = meshgrid(1:refY,1... 2 0.010 s 0.096 

13 movZGrad Org(2:end-1,2:end-1,2... 2 0.005 s 0.096 

12 movYGrad Org(2:end-1,2:end-1,2... 2 0.005 s 0.096 

11 movXGrad Org(2:end-1,2:end-1,2... 2 0.004 s 0.096 

All other lines 0.011 s 0.0% 

Totals 22.830s 100% 
Children (called functions) 

Function Name Function Type Calls Total Time % Time _ Time Plot 

MEX-file 2 22.792s 98% ` E 

meshgrid function 2 0.005 s 0.096 

Self time (built-ins, overhead, etc.) 0.033 s 0.196 

Totals 22.830s 100% 


图 8.21 deformableRegister3D cuda 模块 分 析 结 果 






register3D (2 calls, 22.792 sec) 
MEX-file in file C:\Users\jsuh\Documents\Books\Chapters\Ch8\codes\m code CudaWegister3D.mexw64 


LOpy to new window Tor comparing multiple runs 


Show parent functions [v] Show busy lines ` V] Show child functions 
[V] Show Code Analyzer results Show file coverage Show function listing 


Parents (calling functions) 
Function Name Function Type Calls 


deformableRegister3D cuda | function 2 
Lines where the most time was spent 
No MATLAB code to display 


Children (called functions) 
No children 


Code Analyzer results 
No MATLAB code to display 


Coverage results 
No MATLAB code to display 


Function listing 
No MATLAB code to display 


图 8.22 c-mex register3D 模块 分 析 结 果 
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8.1 结论 





当 对 分 析 中 显示 为 最 忙 的 单个 函数 进行 CUDA 转换 后 ， 相 比 于 3D 医学 图 像 
分 割 的 纯 m 代码 速度 提升 大 约 3.3 Fo AM, ERARE, RN CUDA Digg 
数 执 行 前 后 ，CPU 和 GPU 存储 之 则 进行 过 于 频 给 的 数据 传输 。 这 使 得 整体 进程 冯 
率 下 降 。 最 终 ， 对 循环 内 全 部 运算 都 进行 CUDA 转换 中 ， 算 法 运行 时 间 比 3D 医 
学 图 像 分 割 的 纯 m 代码 快 大 约 24 fi. 

速度 优化 的 第 一 步 是 分 机 ， 从 而 明确 要 转换 为 CUDA 函数 的 目标 模块 。 第 二 
步 ， 当 计划 将 MATLAB 的 m 代码 转换 为 GPU 可 用 的 c-mex 代码 时 ， 应 该 仔细 考 
虚数 据 的 大 小 和 CPU 内 存 与 GPU Weis Rated. S ANTE. 
不 必要 的 大 数据 传输 可 能 无 法 达成 速度 提升 的 目的 ， 这 是 因为 主机 与 GPU 议 备 之 
间 的 数据 传输 在 GPU 运算 中 是 最 慢 的 。 
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附录 A Lais CUDA E 


A.l CUDA 工具 箱 下 载 


要 开始 使 用 系统 中 的 CUDA， 首 先 需 要 安装 CUDA 开发 工具 ， 并 确保 这 些 工 
具 的 正确 操作 。 可 以 从 NVIDIA 网 站 http:/www.nvidia.com/content/cuda/cuda- 
downloads.html 处 下 载 CUDA LA Lë, QUA Al 所 不 。 


WINDOWS: CUDA A 5.0 Production KEE lier Updated 01.10.13) 








Win 8 / Win 7 / Win Vista WinxP 
Desktop lotebook Desktop | 
64bit 64bit 64bit | 
b. 32bit 32bit 32bit J 
fj LINUX: CUDA 5.0 Production Relea: N 
Fedora RHEL Ubuntu OpenSUSE SUSE SUSE 
16 SX 6.X 11.10 10.04 12.1 Server 11 SP1 Server 11 SP2 





64bit 64bit 64bit 64bit 64bit 64bit 64bit 64bi 
N 32bit 32bit 32bit 32bit 32bit 32bit j Jj 


MAC OS X: CUDA 5.0 Production Release (Updated March 2013) 





| 


图 AL 下 载 适 用 于 不 同 操作 系统 的 CUDA 


DOWNLOAD 


A.2 安装 
根据 所 使 用 的 操作 系统 ， 从 图 ALT 中 的 链接 选择 下 载 安装 程序 。 下 载 一 旦 完 


成 ， 就 可 以 执行 安装 程序 ， 并 按照 屏 大 上 的 提示 开始 安装 ， 例 如 : 
e 对 于 64 位 Windows 7， 如 图 A.2 所 示 。 


Welcome to the NVIDIA CUDA Toolkit 
v5.0 (64 bit) Setup Wizard 











图 A 7 Windows CUDA 安装 二 程序 
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e 对 于 MacOS X, "l| A.3 Pra. 


@ OO w Install CUDA 5.0 


Welcome to the CUDA 5.0 Installer 


| ; | The CUDA installation enables general purpose 
6 Introduction computation on NVIDIA GPUs. 


ires Please quit any running CUDA-enabled applications before 


o DestinatiopMaele starting the installation process. 
@ Installatigfi Type? 

à y 
@ Installation y 


| e Summary 


> 





Go Back Continue 





图 A.3 Mac OS X CUDA 安装 程序 


e XJT Linux, WA A A 所 示 。 


youngmin@Dell-Ubuntu: ~/Downloads 
Software License Agreement for NVIDIA CUDA Toolkit 


IMPORTANT NOTICE -- READ CAREFULLY: This Software License Agreement ("Agreement") for NVIDIA CUDA 

Toolkit, including computer software and associated documentation ("Software"), is the Agreement w 
hich governs use of the SOFTWARE of NVIDIA Corporation and its subsidiaries ("NVIDIA") downloadabl 
e herefrom. By downloading, installing, copying, or otherwise using the SOFTWARE, You (as defined 

below) agree to be bound by the terms of this Agreement. If You do not agree to the terms of this 

Agreement, do not download the SOFTWARE. 


RECITALS 


Use of NVIDIA's SOFTWARE requires three elements: the SOFTWARE, an NVIDIA GPU or application proce 

ssor ("NVIDIA Hardware"), and a computer system. The SOFTWARE is protected by copyright laws and i 

nternational copyright treaties, as well as other intellectual property laws and treaties. The SOF 

TWARE is not sold, and instead is only licensed for Your use, strictly in accordance with this Agr 

eement. The NVIDIA Hardware is protected by various patents, and is sold, but this Agreement does 

not cover the sale or use of such hardware, since it may not necessarily be sold as a package with 
the SOFTWARE. This Agreement sets forth the terms and conditions of the SOFTWARE only. 


1. DEFINITIONS 


ileal "Licensee," "You," or "Your" shall mean the entity or individual that downloads and uses t 
he SOFTWARE. 


122 "Redistributable SOFTWARE" shall mean the redistributable libraries referenced in Attachme 
nt A of this Agreement. 


1:3 "SOFTWARE" shall mean the deliverables provided pursuant to this Agreement. 


2. GRANT OF LICENSE 


2.1 Rights and Limitations of Grant. Provided that Licensee complies with the terms of this Agreem 
ent, NVIDIA hereby grants Licensee the following limited, non-exclusive, non-transferable, non-sub 
licensable (except as expressly permitted otherwise for Redistributable Software in Sections 2.1.2 
and 2.1.3 of this Agreement) right to use the SOFTWARE, with the following limitations: 


- -More- - (9X 





图 A.4 Linux CUDA 安装 程序 
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TRIG, € CUDA gt NUR XE AUE. Sf CUDA 工具 箱 
HS) "er ELE Rm dree ENSE. JUS CUDA WERA SEM WMR 
TE EA REI, ES CUR UI P Dirr, BERI RS CUDA: 
e 对 于 Windows 7 (64 ML), SA ZA H&A C:\Program Files\NVIDIA GPU 
Computing Toolkit CUDA\v5.0, WK] A.5 所 示 。 








ER 







© d « CUDA » v50 » ~ | +> Search v5.0 2 
















File Edit View Tools 





Help 





Organize v Include in library v Share with v Bum » Gry DN 9 





iY Favorites | 
RE Desktop L d | f L |! | 
$ Downloads bin doc extras include 
$ Dropbox E 


i, Recent Places 


#3 Homegroup 
B Mem open64 src 


JB Computer 
ch Network 





| 11 items 


图 A.5 Windows CUDA 默认 安装 目录 


e 对 于 Mac OS X, BRi ZCREH3&/Developer/NVIDIA/CUDA-5.0, lE] A.6 
所 示 。 
e XJF Linux, BRU 38 A =e A/usr/local/cuda-5.0, WA A.7 Pras. 











ca Hoy 
eoo0 Œ CUDA-5.0 
z [un | TE v) |3 B Ki Q Places 
FAVORITES E NVIDIA ff CUDA-5.0 £3 bin © Recent all ud ad 
12 Dropbo E doc ft Hom bin doc extras 
L3 extras lili Desktop 
Jj All My Fil 
= L3 include 
® AirDrop @ lib aez canan e aii - ci 
A Applications C3 libnsight Y Download: include jre lib 
日 k C3 libnwp dd Music 
| Geng dti © Pictures uud mdi 
(2 Documents G open64 i | 
o Download: L3 samples , Hvide lib64 libnsight libnvvp 
El movi : GB src ` (2) Trash 
es : 
n Musi ul tools Devices adi aud udi 
usic 
[S computer nvwwm open64 src 
© Pictures 
Network 
€? Browse Net T 
tools 





图 A.6 MacOS X BRi\ ZEB 3 图 A7 Linux 默认 安装 目录 〈 本 例 中 为 Ubuntu) 


对 于 每 种 操作 系统 ， 找 出 以 下 子 目录 下 的 文件 。 

€ bin 下 的 nvcc.exe 或 nvcc。 

@ include 下 的 cuda runtime.h。 

e 对 于 Windows 7 (64 L), lib\64 下 的 cudart.lib. 
e x|] Linux, lib 下 的 1libcudart.so。 

e IT: MacOS X, lib 下 的 libcudart.dylib. 
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A.3 确认 

现在 ， 最 重要 的 是 能 够 通过 命令 提示 符 执 行 CUDA MAR nvcc。 打 开 
Windows 中 的 命令 提示 符 窗 口 ， 或 者 Linux 和 Mac OS X FHI shell。 在 提示 符 下 
执行 图 A.8 中 的 指令 。 如 果 不 能 在 全 命令 提示 符 运 行 nvec， 则 确保 安装 的 CUDA L 
具 箱 的 bin 目录 处 于 系统 环境 中 。 











900 Z Macintosh HD — bash — 80x14 ^ 


Youngmins-MacBook-Pro:/ youngminkim$ nvcc --version 
nvcc: NVIDIA (R) Cuda compiler driver 
EET (c) 2005-2012 NVIDIA Corporation 

ilt on Fri Sep 28 16:10:16 PDT 2012 
compilation tools, release 5. 0, V0O.2.1221 
Youngmins-MacBook-Pro:/ youngminkim 





图 A8  nvec 版 本 验证 
e 对 于 Windows 7 64 位 ， 在 命令 提示 符 下 输入 PATH， 然 后 看 看 市 有 nvec 的 
目录 是 否 同 图 A.9 中 规定 的 一 样 。 


Bi Command Prompt ME CO — 
CiN PS T si 
i iver 











图 A. Windows 环境 中 的 nvcc PATH 
e 对 于 Mac OS X 与 Linux， 在 shell 中 的 提示 符 下 键入 echo $PATH， 确 保 
nvec 路 径 同 图 A.10 与 图 A.11 中 规定 的 相同 。 


OOO A Macintosh HD — bash — 80x8 2 


Youngmins-MacBook-Pro:/ youngminkim$ echo $PATH 
/Developer/NVIDIA/CUDA-5.0/bin:/usr/bin:/bin:/usr/sbin:/sbin:/usr/local/bin:/opt 
/X11/bin 

Youngmins-MacBook-Pro:/ youngminkim$ 





图 A.10 Mac OS X HAY nvec PATH 
youngmin@Dell-Ubuntu: ~/Downloads 


youngmin@DeLl-Ubuntu:~/Downloads$ echo $PATH 
/usc/Lib/Lightdm/lLightdm: /usr/local/sbin: /usr/local/bin: /usr/sbin: /usr/bin:/sbin:/b 
in: /usr/games: /usr/local/games:/usr/1lib/jvm/jdk1.7.0 21/bin:/usr/local/cuda/bin 


youngmin(Dell-Ubuntu:-/DownloadsS 





图 A.11 Linux 环境 中 的 nvcc PATH 
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附 ox 


附录 B 安装 NVIDIA Nsieht 到 Visual Studio 


NVIDIA Nsight (Visual Studio 版 本 ) 是 CUDA 的 开发 环境 。NVIDIA Nsight 
(Visual Studio 版 本 ) 提供 了 强大 的 调试 与 分 析 功 能 ， 对 CUDA 代码 开发 极为 有 
效 。 虽 然 NVIDIA Nsight 是 免费 的 ， 不 过 仍 需要 注册 下 载 。 

1. 访问 NVIDIA Nsight (http://www.nvidia.com/object/nsight.htmI) 进行 用 户 注 





册 ， 会 看 到 图 B.1 中 的 屏幕 。 


DRIVERS 


PRODUCTS » COMMUNITIES SUPPORT SHOP ABOUT NVIDIA > 





NVIDIA » Products » NVIDIA Software VEA subscribe share 


PRODUCT INFO 


Download Nsight, Visual Studio 
Edition 
Download Nsight, Eclipse Edition 


NVIDIA 


Nsight 





Develop for GPUs in your favorite IDE 


NVIDIA® Nsight™ is the ultimate development platform for heterogeneous computing. Work with powerful debugging 
and profiling tools that enable you to fully optimize the performance of the CPU and GPU. Not only do these feature- 
rich tools optimize performance, they help you gain a better understanding of your code - identify and analyze 
bottlenecks and observe the behavior of all system activities. 


Experience the ease of developing code for GPUs using NVIDIA® Nsight™ Visual Studio Edition for Windows or Nsight™ 
Eclipse Edition for Linux and Mac OS. 


Download Nsight Visual Studio Edition Download Nsight Eclipse Edition 


DOWNLOAD 


DOWNLOAD 





图 B.1 NVIDIA Nsight 网 站 。 选 择 Download Nsight Visual Studio Edition for Visual Studio 





2. 注册 后 ， 下 载 与 你 的 操作 系统 匹配 的 工具 ， 如 图 B.2 所 示 。 


DEVELOPER CENTERS 


TECHNOLOGIES TOOLS RESOURCES COMMUNITY 








ANNOUNCEMENTS 


Launching NVIDIA Nsight Visual 
Studio Edition 3.0 Final With 
OpenGL Debugging And Kepler 


»Nsight* Visual Studio Edition Downloads 


NVIDIA® NSIGH AL 
The NVIDIA Developer Tools team is proud to announce the release of NVIDIA® Nsight™ 
Visual Studio Edition 3.0. This new release bring officially support for OpenGL frame 
debugging and profiling, GLSL GPU shader debugging, local single GPU shader debugging. 
the new Kepler™ GK110 architecture found in Tesla K20 & 
CUDA® 5.0. 


and 


CUDA Toolkit 5.0 is available for download at 


Please note that this release requires a NVIDIA Display Driver version 319 or newer. We 
recommending using the drivers avaliable for download below for optimal support. 


Simply follow the steps below to access the Nsight™ Visual Studio Edition 3.0. 


Step 1: Download required NVIDIA display driver for your target 
development environment 
Nsight™ Visuel Studio Edition 3. 


0 requires version 319 or newer. 





GeForce Desktop (320.00) 





Quadro Desktop and Tesla (320.00) 








GeForce Notebook (320.00) | 
Quadro Notebook (320.00) | 





Step 2: Download NVIDIA® Nsight™ Visual Studio Edition 3.0 


Select the platform corresponding to your system end development 


needs. 








For developers who develop BOTH CUDA and Graphics, Nsight Visual Studio packages bundled with si 


CUDA Toolkit are available below. Seperate CUDA Toolkit downlood and installation is not required. 





Bundled with CUDA Toolkit 





Nsight™ Visual Studio Edition 3.0 Installer | | 


GK110 Support! 

Get Comprehensive Nsight Visual 
Studio Edition 3.0 Training At 
NVIDIA's GTC 2013 In March 


Early Access To NVIDIA Nsight 
Visual Studio Edition 3.0 CUDA 
Preview Now Available! 


introducing NVIDIA Nsight Visual 
Studio Edition 2.2, With Local 
Single GPU CUDA Debugging! 
NVIDIA Parallel Nsight™ Is Now 
NVIDIA® Nsight™ Visual Studio 
Edition! 

Get A Good Look At NVIDIA® 
Nsight™, Visual Studio Edition At 
GTC 2012 In May 


only difference 


uppor ted versions of 


e 





图 B.2 注册 后 的 下 载 网 站 。 可 以 根据 操作 系统 下 载 选 择 版 本 
3. 如 图 B.3 所 示 ， 安 装 NVIDIA Nsight (Visual Studio 版 本 )。 


4. 安装 完成 后 ( 见 图 B.4)， 在 Microsoft Visual Studio 中 找到 Nsight 374. 4 
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GPU 5 MATLAB 混合 编程 


HUE BIS et COLA B.4)， 那 么 Nsight 的 全 部 安装 进程 就 顺利 完成 了 。 


E) NVIDIA Nsight Visual Studio Edition 3.0.0.13130 {=n XO 


Nsight Visual Studio Edition Install Summary 
Feature will not be installed if requirements are not met 


^ Nsight Visual Studio Edition 
Nsight for Visual Studio 2010 will be installed 
Requirement met: Microsoft Visual Studio 2010 is installed. 
Nsight for Visual Studio 2008 will be installed 
Requirement met: Microsoft Visual Studio 2008 Service Pack 1 is installed. .NET framework 3.5 Service Pack 
1 is installed. 
T d Nsight Monitor Visual Studio Edition and HUD Launcher 
Monitor and HUD Launcher will be installed 
Requirement met: .NET framework 3.5 Service Pack 1 is installed. 
— Nsight C++ AMP Debugger 


Nsight C++ AMP Debugger for Visual Studio 2012 will not be installed 
Requirement not met: Microsoft Visual Studio 2012 was not found. 


Nsight C++ AMP Target Support for MSVSMON willl be installed 
Warning: Microsoft Visual Studio 2012 MSVSMON.exe was not found. 


NVIDIA CUDA Toolkit 
CUDA Toolkit v5.0 and v4.2 will be installed 


For more information, please go to Nsight Visual Studio Edition Installation Help. 
Select customize to add/remove features for install 


(sk Iw ) ( core ) 





B.3 NVIDIA Nsight (Visual Studio 版 本 ) 的 安装 窗口 


60 Start Page - Microsoft Visual Studio (Administrator) 


[File Edit View Debug Team] N Dat 











Bot JIA 








Solution Explorer * Cd Start GPU Debugging 
Sei @ Start CUDA Debugging 

Start Graphics Debugging 
B Start Performance Analysis... 
EX Enable CUDA Memory Checker 
Options... 
Help 


a New Project... 


ed 
ra Open Project... 





D Ultimate 


Get Started ` Guidance and Resources Latest News 


Welcome Windows Web Cloud Office SharePoint OD. 


What's New in Visual Studio 2010 
Learn about the new features included i 


I 
i 
Visual Studio 2010 Overview 

What's New in .NET Framework 4 
What's New in Visual C++ 

Customize the Visual Studio Start Page 


| Recent Projects 
| 


中 [$9 csv2arff 
| 
H 
中 
H 
ll 





Creating Applications with Visual Studio 


! -— = 
—— 
目 
m. Extending Visual Studio 
[ E Community and Learning Resources 
SCH 
Lj 


[V] Close page after project load 
[V] Show page on startup 





Output 


Sowowpufom| — — lw | IS 


B.4 成功 安装 后 ， 在 Microsoft Visual Studio 中 查看 Nsight 3 





除了 仿真 和 算法 开发 ， 当前 越 来 越 多 的 研发 人 员 使 用 MATLAB 进 和 J 复杂 计算 领域 的 产品 部 署 。 用 户 可 
以 借助 图 像 处 理 器 分 布 式 并 行 处 理 ， 提 升 MATLAB 代 码 的 性 能 。 由 于 提供 了 很 多 高 层 函 数 ，MATLAB 成 功 成 为 
用 于 快速 原型 设计 的 出 色 仿 真 工 具 。 但 面 对 纷 繁复 杂 的 GPU 细 节 和 背景 知识 ，MATLAB 用 户 在 面 对 GPU 强 大 计 
算 能 力 时 ， 总 是 犹豫 不 决 。 本 书 为 用 户 提供 了 人 入门 读物 ， 架 起 了 MATLAB 和 GPU 之 间 的 桥梁 。 本 书 从 零 基础 开 
始 ， 深 入 浅 出 ， 如 介绍 MATLAB 使 用 CUDA 所 需 的 设置 (支持 Windows、Linux 和 Mac OX 等 多 种 操作 系统 ) 
引导 用 户 通过 一 个 个 的 专题 (如 CDUA 库 ) ， 逐 步 掌 握 GPU 编 程 。 作 者 还 与 读者 分 享 了 在 大 数据 计算 领域 的 
MATLAB、C++ 和 GPU 的 编程 经 验 ， 展 示 了 如 何 修改 MATLAB 代 码 以 更 好 地 利用 GPU 的 计算 能 力 ， 以 及 如 何 将 







代码 整合 到 商用 软件 产品 中 。 全 书 提供 了 大 量 的 代码 示例 ， 能 够 作为 用 户 C 一 MEX 和 CUDA 代 码 的 模板 
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